chatgpt究竟魅力何在 大白话告诉你什么是ChatGPT
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
导语:是的,这又是一篇ChatGPT有关的文章,虽然已经有很多篇讲ChatGPT的文章。不过,还是要写一下,毕竟过去的一周发生了那么多新的故事。文章总共有三部分:先科普一下ChatGPT中的GPT是什么,然后介绍从GPT3到ChatGPT的过程,最后进行一些个ChatGPT闲谈。如果不想看技术,可以直接跳到闲谈。鉴于已经有非常多的优秀创作者进行总结和分析,本文将会包含非常多的论文原文以及资源链接,都是值得一阅的好文,再次感谢这些优秀的创作者们。
文章概览
全文共7502字,阅读全文预计需15分钟。
ChatGPT中的GPT是什么?
在很久很久以前(1982年那么久),深度学习模型中有一个非常经典的模型叫做RNN,即Recurrent Neural Networks(循环神经网络)[1]。RNN的出现是为了更好地处理序列信息,RNN隐藏层的值不仅受到当前输入的影响,还取决于上一次隐藏层的值。比如:“我 爱 你”三个字,“爱”不仅仅是“爱”,还包含了“我”的语义信息。但是对于较长的序列或者句子,RNN的机制会出现梯度消失的问题,简单说就是当句子是:“我爱你中国,我爱你春天蓬勃的秧苗,我爱你秋日金黄的硕果,我爱你青松气质,我爱你红梅品格,我爱你家乡的甜蔗,好像乳汁滋润着我的心窝。”最后一个“心窝”已经没有办法包含太多的第一个“我”的语义信息了。而后,最早在计算机视觉里应用的Attention机制被拿来用在了自然语言处理。该机制的思想就是把注意力集中在重要的信息上,而忽视不重要的信息(可见Attention图解[2])。2017年,Google的研究人员发表了《Attention Is All You Need》[3],这篇文章中的Transformer模型是GPT的基石,整个网络结构是由Attention机制组成[4],并且将序列中的任意两个位置之间的距离缩小为一个常量,其次Transformer具有好的并行性,符合现有的GPU框架。这里必须要提一下:Transformer设置了一种“位置编码”(position encoding)机制,用来向序列数据添加位置信息,进而让模型学到“顺序”。做法简单巧妙:用正弦、余弦函数生成沿时间轴变化的波形,然后把这种波形叠加到Transformer的输入中。
那什么是GPT模型呢?是生成式预训练模型(GPT,Generati【【微信】】),是OpenAI研究人员在2018年提出的模型[5]。GPT其实可以看作是Transformer模型中decoder部分修改后的模型(红色框如图1所示)[6]。
图1:Transformer模型
GPT去掉了Transformer的多头注意力(Multi-head Attention),然后在进行模型输出时,利用特定的下游任务进行微调(分类任务、自然语言推理、语义相似度、问答和常识推理)。具体而言,GPT采用了Hinton等人2006年提出的一种经典的神经网络训练策略:“预训练+微调”的二段式训练策略[7]。在预训练阶段,首先基于庞大的生语料训练一个生成式语言模型;在微调阶段,使用标注数据继续训练模型。
图2:GPT模型
这样的生成式模型可以给他输入N个单词(也称为Token)的序列,输出是最有可能在输入序列末尾放置的单词的预测。举个例子:
过了一会儿,大灰狼来了,他想闯进小兔子的 →家
当我们想得到一个以上的多个单词时,就将得到的下一个单词添加到输入序列中,就可以得到下一个单词。
图3:序列输入输出示例
以此发散,GPT可以进行的任务其实有非常多,比如:文本生成、代码生成、问答等等,如果要扯上其他类型的数据,也不是不行,比如图像生成、视频生成等等,谁还不是些个高维向量嘛。
从GPT3到ChatGPT费钱的GPT3
从GPT模型提出以来,OpenAI就在不断进行模型优化。GPT系列的模型结构秉承了不断堆叠Transformer的思想,通过不断的提升训练语料的规模和质量,提升网络的参数数量来完成GPT系列的迭代更新[8]。其中,GPT3模型是ChatGPT的基石,该模型拥有1750亿的参数,利用45TB的数据进行训练,其训练费用高达1200多万美元,知乎上有个帖子在讨论GPT3花了多少钱[9]。不得不说,OpenAI的这些个模型一直搞是真的有钱。在GPT3的文章[10]中,作者自己坦白实验中的实验数据是有些问题的,但是由于训练的花费太高了,再训练一次也不太合适。
图4:GPT3论文原话
但是不得不说,GPT3的效果在大语料大参数量的加持下有了一些成绩,并展示了三个重要的能力[11]:
1.语言生成:遵循提示词(prompt),然后生成补全提示词的句子(completion)。这也是今天人类与语言模型最普遍的交互方式。
2.上下文学习 (in-context learning):遵循给定任务的几个示例,然后为新的测试用例生成解决方案。很重要的一点是,GPT3虽然是个语言模型,但它的论文几乎没有谈到“语言建模”(language modeling),作者将他们全部的写作精力都投入到了对上下文学习的愿景上,这才是 GPT3的真正重点。
3.世界知识 (world knowledge):包括事实性知识 (factual knowledge)和常识(commonsense)。
但是,仍然需要铭记于心的是,GPT3的本质还是通过海量的参数学习海量的数据,然后依赖transformer强大的拟合能力使得模型收敛。基于这个原因,GPT3学到的模型分布也很难摆脱数据集的分布情况。对于一些明显不在这个分布或者和这个分布有冲突的任务来说,GPT3还是无能为力的。GPT3的缺点有[12]:
1. 对于一些命题没有意义的问题,GPT3不会判断命题有效与否,而是拟合一个没有意义的答案出来;
2.由于40TB海量数据的存在,很难保证GPT3生成的文章不包含一些非常敏感的内容,例如种族歧视,性别歧视,宗教偏见等;
3.受限于transformer的建模能力,GPT3并不能保证生成的一篇长文章或者一本书籍的连贯性,存在下文不停重复上文的问题。
就连OpenAI的首席执行官都说,GPT3会犯愚蠢的错,GPT3只是人工智能领域非常早期的一瞥。
图5:Sam Altman的Twitter原话
但是这起码是一瞥,GPT3对AI领域的影响是深远的,给AI领域注入了一剂强心剂,告诉各大硬件厂商工作要加油,只要算力足够强,AI性能还有提升的上界。不过,由于其高昂的计算代价也引发了一些垄断的讨论:中小企业没钱搞,而形成AI巨头对算力要求高的算法的技术垄断。当时知乎上有一个问题“如何评价1700亿参数的GPT-3?”[13],复旦大学邱锡鹏老师回答说:英伟达或成最大赢家!邱总给了2019 年 3 月机器学习先驱阿尔伯塔大学教授 Richard S. Sutton 著名的文章《苦涩的教训》的开篇的一段话,其中一句是“70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最有效的方法。”
图6:The Bitter Lesson[27]
GPT-3 到 ChatGPT的心路历程
再次,感谢热心NLP同胞在网上的各种讲解,有网友梳理了2020 版 GPT-3 到 2022 版 ChatGPT的心路历程[11],如图6所示,并且非常仔细地给出了不同版本模型的演变和差异。
图7:2020 版 GPT-3 到 2022 版 ChatGPT的心路历程
可以看到,当GPT3模型出世以后,OpenAI团队就将其用在了代码生成[14]和基于指示学习的初代ChatGPT之InstructGPT。其中,微软的应用市场已经提供了相关的代码生成服务[15]。其实,代码生成是一个非常有利可图的市场。考虑到程序员的高时薪,即使每月节省几个小时的编码时间,也足以支付Codex的订阅费。不过Codex依然还是会犯错的!OpenAI的研究人员在论文中警告:“安全使用Codex这样的代码生成系统需要人类的监督和警惕。”再说InstructGPT,其实这个就是ChatGPT最初始的模型了,而后,模型又加入了RLHF策略,这是啥呢,全称是Reinforcement Learning from Human Feedback,翻译过来就是基于人工反馈的强化学习。接下来我们再回顾一下ChatGPT背后的技术路线:
图8:InstructGPT模型框架
Step1:工程师团队设计了一个基于 Prompt 训练方式的数据集,里面有大量的提示文本,并且详细说明了下游任务是什么。将这个训练集交给人类标注记录人类的回答,并拿这个数据集去通过 Prompt的方式微调 GPT3。
当下,人们玩ChatGPT玩的非常666,不过ChatGPT 效果好不好一部分原因取决于你的 Prompt(提示词),那什么是Prompt呢?其实就是你问ChatGPT的那句话,可以问他今天星期几,也可以问他牛顿是谁,还可以问很多问题。但是怎么问,问什么是会得到不同效果的答案的。目前已经有很多网友总结出如何撰写Prompt的指导手册[16],亚马逊的网站上都有书卖了,甚至都有网站专门交易Prompt[17]。大家为了赚钱真是努力啊。
图9:Prompt交易网站
图10:2022年年底关于Prompt撰写的指南
写好Prompt,走遍天下都不怕。根据热心网友总结出的Prompt撰写原则,需要尽量follow这么几点[16]:
1、清晰,切忌复杂或歧义,如果有术语,应定义清楚。
2、具体,描述语言应尽量具体,不要抽象活模棱两可。
3、聚焦,问题避免太泛或开放。
4、简洁,避免不必要的描述。
5、相关,主要指主题相关,而且是整个对话期间,不要东一瓢西一瓤。
Step2:微调后的模型姑且称为 GPT3-1 吧,用 GPT3-1 去预测第一步的数据集的任务得到 N 个结果,并且让标注人员标注每个选项的好坏并把这个标注后的数据集用来训练奖励模型(RM)。
其实,这一步就是基于人类反馈的强化学习,即通过人类的反馈,有针对性地进行优化。如果说深度学习是在学习表征的话,强化学习就是在学习规则。简单来说,以前,我们针对输入就只输出一个结果A,完了不断优化结果A;现在,我们针对输入,输出了结果A、B、C、D,然后我还告诉模型这个A、B、C、D哪个好,哪个不好,模型你要好好学,尽量学出好的那些选项,而不是不好的(reward model的目标是拿高分)。
Step3:使用 PPO 的策略来更新参数,拿 GPT3-1 再预测一次数据集的结果通过第二步的奖励模型进行打分,计算奖励(reward)。最后将这个奖励分数通过 PPO 给到 GPT3-1 进行训练。
第三步简而言之就是把奖励的结果投入到模型的参数更新环节,不断拟合,得到最后的模型。这里提到的PPO[18]的全称是Proximal Policy Optimization,近端策略优化算法,网上现在的解析也很多啦[19],就是用来做策略梯度下降。机器学习中常常举得一个栗子是,人要下山,那往哪里走,下山稳又速度快。梯度下降算法有三种类型:批量梯度下降、随机梯度下降和小批量梯度下降。PPO算法提出了目标函数可以在多个训练步骤实现小批量的更新,解决了策略梯度算法中步长难以确定的问题。如果步长太小,训练时间就会过长。如果步长过大,有用信息会被噪音掩盖(因为每个数据影响都很大),或者令性能灾难性的下降,难以收敛[20]。说到这第三步,现在有很多吃瓜群众都会问:火出圈的为什么是 OpenAI,而不是国内的一线大厂?我的回答是:就拿这ChatGPT里的PPO策略(用来更新参数的算法)来说, 这个PPO是2017年,OpenAI团队提出的,对2015年提出的TRPO算法[21]的改进版本,提出TRPO这个算法的人是伯克利的博士生John Schulman等人,包括其导师,他导师是强化学习领域的大神Pieter Abbeel, Abbeel是伯克利的副教授,同时也是OpenAI的研究科学家,是机器人强化学习领域最有影响力的人之一。不得不说,人家现在走的每一步,都是因为之前走的每一步。
ChatGPT闲谈为什么ChatGPT出名,而GPT3没有?
首先回到2019年,Google团队提出了Bert模型[22],训练一个 Bert模型租用云算力要花大概 6912 美元,GPT3 需要的算力是 Bert的 1900 多倍, 另外,同等参数规模下,Bert的效果要好于GPT。笔者当时的毕业论文就是用的Bert模型,Bert当时真的成为了各种实验的基线,维基百科中提到:2020年的一项文献调查得出结论:“在一年多一点的时间里,BERT已经成为NLP实验中无处不在的基线”,算上分析和改进模型的研究出版物超过150篇[23]。Bert胜在易得,我自己感觉GPT的风头并没有Bert大,大厂内各种在做的也多是Bert的身影。那为啥ChatGPT出圈了?我觉得很大的一个原因是他的出圈方式,之前很多时候,搞人工智能研究的,但凡有突破性进展都是通过发论文的方式来说明自己的模型有多厉害。就算放开API,也有一定的使用门槛,最多在Twitter上吹一把模型多厉害。
图11:当年Google研究员的Bert宣传
但是这次的ChatGPT完全不一样,直接放开了一个对话框给大家玩,男女老少都能参与,而且效果不差,那可不得一下子就火起来。对于这样大胆的放开,又不得不提到“那些年被毙掉的Tay”,2016年,Twitter 上发布了一个人工智能聊天机器人 Tay,但在和用户开放对话后不到一天的时间里,它就“变成”了一个热爱希特勒、讥讽女权主义的机器人,最终由于不恰当的种族主义言论引发了激烈争议。所以,接下来想要介绍的是ChatGPT在数据标注上的一些个建树。他们是有严格且规范的标注指南的[24],并且在不能回答的一些个问题上,是绝对就不回答的。所以目前来看,如果只是简单的一些Prompt来问,Cha 在ChatGPT大火、不少头部企业围绕这一赛道官宣布局时,各种“蹭热度”的行为也层出不穷:有的推出“山寨版”ChatGPT服务,免费体验几次后高额收费;有的公司业务与人工智能毫无关联,却声称正在进行相关技术测试;还有些企业和个人正在试图密集抢注ChatGPT商标,涉及网站服务、广告销售等多个领域…… 记者搜索ChatGPT相关公众号,可以找到不少“沾亲带故”的版本,Logo高度类似、形式基本雷同,但体验感却“天差地别”。有些开通会员需要收费9999元,有些只能免费体验几次就需要开通收费版,有的需要获取完整个人信息才可使用。 在资本市场,一些带有所谓“chatGPT概念”的上市公司更是在几天内或经历股价“过山车”,或收到交易所问询函。一时间,仿佛深耕技术储备、做好创新本分不是主流,趁着热点走个捷径、掌握“流量密码”才是“王道”。 熙熙攘攘,皆为利来利往,之所以出现一窝蜂的不择手段蹭热点行为,无非是想利用信息差赚快钱,收割“韭菜”谋取暴利。这样的情形并非首次出现。每次有新概念成为“顶流”话题时,类似现象都会出现,量子科学、元宇宙、区块链等新赛道“火热”时,都曾有一波“硬蹭”的操作,专注于割韭菜、炒概念、蹭热度、搭便车、造故事。 然而,一旦热潮消退,回归现实的人工智能技术最终还是要比拼落地能力,以及是否能为客户创造价值、是否能够走出商业化道路等“硬性指标”。过度的炒作还会透支民众对科技创新领域的整体信任,甚至殃及一些踏实做事的“良币”,最终带来一地鸡毛。 据不完全统计,2022年有逾60家A股公司因涉嫌“蹭热点”“炒概念”被交易所关注或问询,其中部分公司已被采取监管措施。一些蹭热点行为不仅可能违反知识产权领域的相关法律,还可能构成反不正当竞争法下的一系列侵权行为。 科技创新没有什么立等可取,与其碰瓷炒作企图收割“韭菜”,最终落得一番奚落嘲讽,不如埋头苦干赢取未来!(周琳) 来源:中国互联网联合辟谣平台 版权归原创者所有,如侵权联系删!返回搜狐,查看更多 责任编辑:碰瓷是真的假的 警惕碰瓷新骗术
碰瓷是真的假的,碰瓷是什么问题,碰瓷啥意思啊,碰瓷是一种什么行为