chatgpt爆火原因多国出手调查chatgpt

互联资讯 2023-04-20 02:32:03 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

chatgpt,chatgpt官网,chatgpt国内能用吗,chatgpt怎么读

ChatGPT发布以来，全球竞逐AI赛道，人工智能发展的速度已超乎我们的想象。不过现在，似乎无所不能、颠覆行业、成为未来发展趋势的ChatGPT目前正被层出不穷的负面包围。

目前，意大利已禁止全国使用GPT-4，给予OpenAI平台20天适应期，否则将面临2000万欧元罚款。欧盟、加拿大、法国、爱尔兰和德国也纷纷准备采取行动。美国总统拜登在白宫会议上讨论了AI对社会和国家安全的风险与机遇，表示AI的危险性有待观察。而由马斯克和图灵奖得主等人发起的公开信呼吁暂停高级AI发展，如今已有上万人签名。

封杀ChatGPT狂潮席卷全球

以ChatGPT为代表的生成式人工智能，正在激发包括微软、谷歌、Meta、百度、阿里巴巴等国内外科技巨头以及创业者的新一轮AI军备竞赛。

然而，从全球爆火到被多国“围堵”，ChatGPT正在引发更多监管层面的关注。

当地时间3月31日，意大利个人数据保护局宣布，从即日起禁止使用聊天机器人ChatGPT，并限制开发这一平台的OpenAI公司处理意大利用户信息。同时个人数据保护局开始立案调查。

图源：网络

随后，4月3日，德国联邦数据保护专员Ulrich Kelber表示，德国可能会效仿意大利，以数据安全方面的担忧为由，屏蔽ChatGPT。

法国和爱尔兰方面也联系了意大利数据监管机构，并讨论了调查结果，同时，加拿大隐私专员办公室（OPC）宣布开始调查ChatGPT背后的公司OpenAI，涉及“指控OpenAI未经同意收集、使用和披露个人信息”等投诉。

不仅如此，多国企业和机构也开始调查或采取措施限制使用该软件。

3月末，韩国三星半导体部门发生了3起因员工在ChatGPT上输入设备信息及重要会议摘要，导致公司机密外泄风险陡增的事件。

台积电、软银、日立、富士通、日本瑞穗金融集团等企业也开始限制ChatGPT等交互式人工智能服务在商业运作中的使用。

此外，摩根大通已经限制员工使用ChatGPT，亚马逊、微软和沃尔玛也已向员工发出警告，要求员工谨慎使用生成式AI服务，埃森哲则警告员工不要将客户信息暴露在ChatGPT中。

与此同时，另一个引发关注的焦点是，如今GPT-4可能具备“自我进化”的能力。前谷歌大脑研究工程师Eric Jang发现，GPT-4能够以合理的方式批评自己的成果，“AI是否能够超越人类”这个终极难题再度浮现。

曾有微软研究员发推说GPT-4根本无法写出“不押韵”的诗歌。然而，当再去询问GPT-4是否完成了任务。这时，它道歉后，生成了一个不押韵的诗，可以说是满分。

似乎，人工智能发展到现在，已经成为令人“不安”的存在。

马斯克呼吁ChatGPT纳入监管

人工智能是柄双刃剑，具备强大能力的同时也伴随巨大的风险。推特首席执行官埃隆・马斯克（Elon Musk）甚至认为，对于未来文明而言，最大的风险之一就是人工智能。他呼吁建立对人工智能的监管。

3月29日，马斯克等千名业界和学界人士联署公开信，呼吁所有人工智能实验室立即暂停训练比GPT-4更强大的AI系统，暂停至少6个月，以便制定和实施安全协议。

“ChatGPT已向人们展示了人工智能变得多么先进，我们需要监管人工智能的安全问题。任何有可能对人们造成风险的技术，比如飞机、汽车、药品，我们都有监管机构来监督这些技术的公共安全问题，人工智能也应该有类似的监管，因为它对社会的风险更大。这或许会减缓人工智能的发展，但我认为是好事。”马斯克表示。

图源：网络

4月11日，据《华尔街日报》报道，拜登政府已经开始研究是否需要对ChatGPT等人工智能工具实行检查。作为潜在监管的第一步，美国商务部4月11日就相关问责措施正式公开征求意见，包括新人工智能模型在发布前是否应经过认证程序。征求意见期限为60天。

“这些工具即便在起步阶段就能做到这些，这真令人惊讶。” 美国商务部下属机构国家电信与信息管理局局长艾伦・戴维森(Alan Davidson)说，“我们知道，我们需要设置一些界限，来确保这些技术被负责任地使用。”

目前，科技行业和政府官员已对人工智能技术潜在的危害表示担忧，包括使用该技术犯罪或是传播虚假信息。

值得一提的是，当地时间4月10日，据美国数字新闻网站 Axios报道，知情人士透露，著名科技投资人Ron Conway的投资公司SV Angel将于4月12日召集旧金人工智能山AI公司的高层讨论人工智能政策问题，OpenAI、微软、谷歌、苹果、英伟达、Stability AI、Hugging Face、Anthropic等公司的高管与政策代表将出席该会议，讨论如何负责任地开发AI、分享最好的实践案例，并商讨相关的公共政策框架和标准。

据悉，美国金融部门的监管机构已经对贷款机构如何利用人工智能来承销贷款进行调查，希望防止对少数群体的歧视。此外，美国司法部反垄断部门表示，该部门正在监控人工智能领域的竞争。联邦贸易委员会则警告这些科技公司，它们可能会因对人工智能产品做出虚假的或未经证实的声明而面临法律后果。

中国拟给生成式人工智能立规

4月11日，中国国家互联网信息办公室就《生成式人工智能服务管理办法（征求意见稿）》（简称《征求意见稿》）公开征求意见，《征求意见稿》共21条，从生成式人工智能服务商的准入，到算法设计、训练数据选择、模型到内容，以及用户实名和个人隐私、商业秘密等方面提出了相关要求。这意味着，当下爆火的生成式AI产业将迎来首份监管文件。

图源：中国网信网

依据征求意见稿，利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人（以下简称提供者），包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等，承担该产品生成内容生产者的责任；涉及个人信息的，承担个人信息处理者的法定责任，履行个人信息保护义务。

提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。用于生成式人工智能产品的预训练、优化训练数据，应满足以下要求：符合《中华人民共和国网络安全法》等法律法规的要求；不含有侵犯知识产权的内容；数据包含个人信息的，应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形；能够保证数据的真实性、准确性、客观性、多样性；国家网信部门关于生成式人工智能服务的其他监管要求。

而在《征求意见稿》发布的前一天，前搜狗CEO王小川的百川智能，商汤科技以及昆仑万维三家企业宣布杀入生成式人工智能大模型领域。

值得关注的是，《征求意见稿》中也明确了对生成式AI产业的支持和鼓励态度。《征求意见稿》提出，国家支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作，鼓励优先采用安全可信的软件、工具、计算和数据资源。

ai和chat区别 open ai和chatgpt的关系

爱喝茶的好处和坏处,AI和ChatGPT区别,AI和ChatGPT的关系,ai和编程有区别吗

?作者：京东科技李俊兵

各位看官好，我是球神（江湖代号）。

自去年11月30日ChatGPT问世以来，迅速爆火出圈。

起初我依然以为这是和当年Transformer, Bert一样的“热点”模型，但是当一篇篇文章/报告不断推送到我的眼前，我后知后觉地发现这次真的不一样。

很直接的一点是，ChatGPT已经影响到非AI、非互联网、非计算机的每一个人了。

你会看到，众多科技界大佬，马斯克、纳德拉、李开复、李彦宏、周鸿t等，都在发声称 ChatGPT 将改变世界；

太多的互联网公司，如微软、谷歌、百度、阿里、腾讯等正在抢占商业先机；

还有更多的学术机构、高校也开始讨论 ChatGPT 生成论文是否符合学术规范；

突然之间各行各业从业者开始担忧被 ChatGPT 替代……

「初看以为是热点，再看已成经典…」

于是我决定好好研究它一番，并力争把它写得全面而通俗易懂一点，最终就有了这篇万字长文报告，建议收藏、慢慢阅读。

文章主题关于：「ChatGPT背后的AI背景、技术门道和商业应用。」

以下是目录和正文内容：

引言

我和聊天机器人的小故事

一、 AI背景

1.1 ChatGPT的出圈和能力圈

1.2 人工智能发展简史

1.3 ChatGPT背后的NLP和Transformer

二、技术门道

2.1 GPT-1到ChatGPT的演进和技术原理

2.2 ChatGPT的局限性

2.3 ChatGPT的优化和探索方向

三、商业应用

3.1 国内外资本投入层层加码

3.2 ChatGPT商业化序幕已经拉开

3.3 ChatGPT助力AIGC浪潮再起

后记

ChatGPT会引领第四次科技革命吗？

ChatGPT会给人类带来失业潮吗？

ChatGPT适合下海创业吗？

ChatGPT以及AIGC产业链有值得投资的机会吗？

参考文献

笔者相关背景简介

早在2017年末至2018年上半年，我刚拿到计算机专业研究生的入场券，同时需要完成本科毕业设计。因此，我选择提前进入研究生实验室并带回一个毕设课题：中文文本对话系统(俗称：聊天机器人)。

没错，从研究方向来说，今天文章的主角ChatGPT正好属于我那会的研究范畴―自然语言处理(NLP)。只不过后来因为一些不可控因素，我更加关注于机器学习和计算机视觉领域。

记得最后写本科毕业论文和答辩的时候，我的中文文本聊天机器人(基于Seq2Seq + Attention架构)还很low：只能保持4-5轮对话逻辑；稍微问难点答案就面目全非；对话的文本不能太长…

虽然同样在2017年，Transformer架构已经问世，但站在那个时间节点，即便是一线研究人员和工程师，恐怕也很难想象到5年后的2022年，就会有ChatGPT这样的现象级通用聊天机器人程序出现。

“科技的发展不是均匀的，而是以浪潮的形式出现”。---《浪潮之巅》，吴军

尽管ChatGPT已经火爆到让很多人疯狂，我们还是希望静下心来仔细看看它现在到底能做什么，它的边界又在哪里。

各大热门平台产品月活跃用户数破亿所需时长

先看产品实际应用测试的效果：

再看产品表现背后抽象出的深层次能力：

所以，从发布到现在2个多月来，ChatGPT已经证明了它的能力圈包括：自动问答、多轮聊天、文章创作、语言翻译、文本摘要、编写和debug代码等，同时这些表层能力背后反映了其具备理解人类意图、敢于质疑、承认不知道、不断学习进化等深层次ability。

并且这些能力表现已经远超过往其他AI机器人，也已经得到了包括AI研究者、工程师和各行各业产业专家们的一致认可。

不得不承认，从单项性能表现、整体功能覆盖、稳定性、时效性、鲁棒性等多个维度评价，目前的ChatGPT已经足够颠覆，它让通用AI研究和产业落地成为可能。

提起人工智能和计算机科学，有个名字总是无法绕开。

他是英国人艾伦・图灵（Alan Turing）。

图灵(Alan Turing，1912-1954)出生的那年，他的祖国正处在“日不落”的全盛时期，占有的殖民地是本土面积的百倍有余。而在遥远的东方，中华民国临时政府在南京成立，中山先生就职临时大总统，属于中华民族的革命复兴才刚刚开始(「ChatGPT应该写不出这段」)。

1950年，时年38岁的图灵在数学和逻辑学领域已经成就颇丰，但当他在《计算机与智能》论文中提出著名的“图灵测试”构想时，后世的人们更加不会忘记他对人工智能和计算机科学领域做出的杰出贡献。

“如果第三者无法辨别人类与人工智能机器反应的差异，则可以论断该机器具备人工智能”。--- 图灵, 人工智能之父

时间来到1956年8月，在美国达特茅斯学院，约翰・麦卡锡、马文・闵斯基、克劳德・香农、艾伦・纽厄尔、赫伯特・西蒙等科学家一起讨论了用机器来模仿人类学习以及其他方面的智能等问题，首次提出了“人工智能”这个概念，也就此标志了人工智能学科的诞生。

此后，人工智能的发展经历了四次大的浪潮。

初代AI中计算机被用于证明数学定理、解决代数应用题等领域。这一时期感知机(1957)、模式识别(1961)、人机对话(1966)、专家系统(1968)、视觉计算(1976)等理论先后被提出来。

好景不长，专家和学者们发现仅仅具有逻辑推理能力远远不够实现人工智能，许多难题并没有随着时间推移而被解决，很多AI系统一直停留在了玩具阶段。之前的过于乐观使人们预期过高，又缺乏实质性的进展，许多机构逐渐停止了对AI研究的资助。人工智能遭遇了第一次低谷。

AI 2.0时代专家系统和多层神经网络得到推广应用，人机对话机器人、语音控制打字机逐渐问世，这一时期贝叶斯网络(1985)、反向传播(BP，1986)、支持向量机(SVM，1995)等算法先后被提出来。

但是很快，专家系统所存在的应用领域狭窄、知识获取困难、维护费用居高不下等问题开始暴露出来。AI发展遭遇了一系列财政问题，进入第二次低谷。

上个世纪90年代中期以来，随着计算机性能的高速发展和海量数据的累积，人工智能的发展正式进入现代AI时代。

1997年，IBM的国际象棋机器人深蓝（Deep Blue）战胜国际象棋世界冠军卡斯帕罗夫，引起世界范围内轰动。随后，条件随机场(CRF，2001)、深度学习(Deep Learning, 2006)、迁移学习(Transfer Learning，2010)等理论先后被提出来。

进入21世纪的第二个十年以来，工业界开始陆续推出实打实的人工智能产品/应用。

2011年2月，IBM的问答机器人Watson在美国问答节目《Jeopardy！》上击败两位人类冠军选手；

2012年10月，微软就在“21世纪的计算”大会上展示了一个全自动同声传译系统，它将演讲者的英文演讲实时转换成与他的音色相近、字正腔圆的中文；

2016年3月，谷歌的围棋人工智能系统AlphaGo与围棋世界冠军、职业九段选手李世石进行人机大战，并以4:1的总比分获胜；

随后在2016年末-2017年初，AlphaGo又先后与中日韩数十位围棋高手进行快棋对决，连胜60局无一败绩，包括3:0完胜世界第一、中国选手柯洁。

与之对应的是，AI学术界在这十多年来可谓百家争鸣，各显神通。

2012年，Hinton(深度学习三巨头之一)和他的学生Alex Krizhevsky设计了第一个深度卷积神经网络--- AlexNet，并摘得了当年ImageNet图像分类比赛的冠军；

此后，CV人相继提出了【【微信】】(2014)、Inception Net(2014)、ResNet(2015)、Fast RCNN(2015)、 YOLO(2015)、 Mask RCNN(2017) 、MobileNet(2017)等base model，引领了图像分类、人脸识别、目标检测、图像分割、视频理解等领域的快速发展；

NLP人不甘示弱，他们先设计了Word2Vec(2013)类能将单词转化为向量表示的工具，随后利用LSTM(1997)系列循环神经网络，基于Seq2Seq(2014) + Attention(2015)的架构实现了机器翻译、对话系统等复杂任务，并进一步在2017年提出了Transformer这一大杀器，同时进阶产生了BERT(2018)系列性能更优更稳定的大模型。

还有另一群执着的AI者，他们更focus深度生成式网络模型。从变分自编码器(VAE，2013)到生成对抗网络(GAN，2014)，再到去噪扩散模型(DDPM，2020)和生成式预训练Transformer (GPT系列，2018-至今)，这些具有开创性的模型真正带动了产业界AIGC(生成式人工智能技术)的快速发展。

2017年，微软“小冰”推出世界首部由人工智能创作的诗集《阳光失了玻璃窗》； 2018年，英伟达发布StyleGAN模型可自动生成高质量图片； 2019年，Deep Mind发布DVD-GAN模型可生成连续性视频；直到2022年11月30日，OpenAI发布ChatGPT，本文的主角终于正式登场。

一部人工智能发展史也是一部信息技术革命发展史。

不同的是，当人工智能发展到一定阶段，它或许终将颠覆“机器帮助人”的信息化时代，引领“机器代替人”的智能化时代。

「多年以后，也许我们会看到，ChatGPT正是第四次科技革命开始的标志性事件之一。」

在了解ChatGPT的能力圈和人工智能的发展史之后，非AI从业者也能明白ChatGPT的研究属于自然语言处理(Natural Language Processing, NLP)领域范畴。

自然语言处理(Natural Language Processing, NLP) 被誉为“人工智能皇冠上的明珠”，一方面表明了它的重要性，另一方面也突出了它的技术难度。

简单来说，NLP要做的事就是利用计算机实现自然语言数据的智能化处理、分析和生成，以期让计算机实现听、说、读、写、译这些人类所具备的语言能力。

更具体一点，NLP领域根据下游任务不同主要包括以下几类研究方向：

细心的读者已经发现了，ChatGPT基本已经实现了以上7大类任务的中阶目标，所以NLP研究员和工程师们担心自己发明工具却抢了自己饭碗不是没有道理，其他技术含量不高的行业工作者也就更加战战兢兢。

NLP的发展也经历了三个大的阶段，即以规则学习为代表的第一阶段(1960-1990)、以统计学习为代表的第二阶段(1990-2010)和以深度学习为代表的第三阶段(2010-至今)。

而其中真正影响ChatGPT和其他大语言模型产生的无疑是Transformer架构。

可以说，Transformer的出现完全打开了大规模预训练语言模型(Pre-trained Language Model , PLM)的空间，并且奠定了生成式AI的游戏规则。

2017 年，Google 机器翻译团队在机器学习顶级会议NIPS上发表了《Attention is All You Need》论文，文章的核心正是 Transformer 模型。

Transformer相比之前论文的novalty在于：大胆地抛弃了传统的CNN和RNN基础模型，整个网络结构完全是由Attention机制组成。更准确地说，Transformer由且仅由自注意力(self-Attenion)机制和前馈神经网络(Feed Forward Neural Network)组成。

而从实际应用的角度来看，Transformer的主要贡献(contribution)在于以下几个方面：

1.突破了 RNN 模型不能并行计算的限制

2.精度和模型复杂度相比RNN/CNN + Attention系列模型更优

3.Transformer本身也可以作为base model扩展

我们站在此刻回想，ChatGPT背后的Transformer，其思想和架构恰恰印证了那句:「大道至简」。

它首先在机器翻译任务中取得SOTA，而后成功被应用到NLP和CV等各个任务中，并获得了稳定优异的性能表现。

Transformer 模型架构图

后来的故事很多人都知道了，Google人再接再厉，他们在2018年10月提出来的BERT(Bidirectional Encoder Representation from Transformers)模型再次轰动业界。

BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类，并且在11种不同NLP测试中创出SOTA(业界最佳)表现，包括将GLUE基准推高至80.4% (绝对改进7.6%)，MultiNLI准确度达到86.7% (绝对改进5.6%)，成为NLP发展史上的里程碑式的模型成就。

就当所有人以为Google会在大语言模型赛道中一骑绝尘时，最终率先让世人熟知的却是来自OpenAI的GPT系列模型。

GPT(Generati【【微信】】ormer)系列模型首先选择和BERT绕道而行，尽管GPT-1(2018/06)发布的时间比BERT(2018/10)还要早。

BERT仅使用了Transformer的编码器(Encoder)部分进行训练，而GPT-1则只使用了Transformer的解码器(Decoder)部分。

由此二者各自走上了不同的道路。

原文：Impro【【微信】】nding by Generative Pre-Training

预训练阶段：基于Transformer Decoder架构，以语言建模作为训练目标(自监督，根据已知的词预测未知的词)。

微调阶段：将训练好的Decoder参数固定，接上一层线性层，通过有监督训练任务微调线性层的参数，从而进行预测。

GPT-1的局限：微调只能用到特定任务中，如果fine-tune一个分类任务，就不能用到句子相似度任务中去。

所以能不能用一个模型去做所有NLP的任务？

这就是后续GPT-2和GPT-3的改进目标。

原文：Language Models are Unsuper【【微信】】rs

GPT-2的目标是试图用一个模型去做多个NLP任务，它的核心思想就反映在论文标题里：语言模型=无监督多任务学习。

通俗地解释一下：语言模型实际上是一种自监督的方式，根据已知的词预测未知的词，只是不需要显示地定义哪些字段是要预测的输出。那如何用无监督多任务的训练方式实现语言模型自监督训练+多任务微调的效果呢？我们只需要将input、output和task都表示为数据，例如在一个英文翻译成法语的机器翻译任务中，我们只需要将样本、标签和任务表示成如下格式，就实现了对P(output|input,task)的建模。

重要的是，这种方式可以实现无监督训练，并且里面的task可以变化，也就是说现在GPT-2可以实现无监督多任务训练而不需要第二阶段分不同任务有监督的微调！

所以最后我们看到，GPT-2相对于GPT-1，最大的改进就是去掉了第二阶段的微调(fine-tune)层，实现了多任务训练和zero-shot方式(Zero-shot learning，零样本学习)直接接诸多的下游任务，在多个任务下都可以取得很好的效果。

当然肉眼可见的还有数据集、网络层数、参数量、词汇表大小、初始化和LN(layer normalization)的调整。

原文：Language Models Are Few-shot Learners

GPT-3 基本继承了GPT-2的模型架构和训练模式，除了大力出奇迹的海量数据和巨型参数之外，GPT-3在模型设计层面相对于GPT-1和GPT-2主要的改进点在于：in-context learning(上下文情境学习，ICL) 和 few-shot learning(小样本学习，FSL)配合服用。

我们已经知道，GPT-1和BERT都需要对下游任务进行微调，而GPT-2通过无监督多任务和零样本学习舍弃了微调，并且验证了性能更加优越，那能否在不需要微调的前提下继续提升呢？

答案是可以，引入in-context learning(上下文情境)学习机制。

这种机制可以理解为给模型加一定的先验知识，适当对模型进行引导，教会它应当输出什么内容。

比如你希望GPT3帮你把中文翻译成英文，你可以这么向他提问：

用户输入到GPT3：请把以下中文翻译成英文：你觉得球神帅吗？

如果你希望GPT3回答你的问题，你可以换个方式问：

用户输入到GPT3：模型模型你说说：你觉得球神帅吗？

这样模型就可以根据用户提示的情境，进行针对性的回答了。

这里只是告诉了模型怎么做，能不能先给个示例呢？

用户输入到 GPT-3：请回答以下问题：你觉得球神帅吗？=> 我觉得还挺帅的呢; 你觉得科比打球帅还是欧文打球帅？=>

其中回答球神帅不帅就是一个示例，用于让模型感知应该输出什么。

基于以上，只给提示就是zero-shot，给一个示例叫做one-shot，给少量多个示例就是few-shot。

专业的读者应该能发现，这里给提示的in-context learning(上下文情境)学习跟prompt learning(提示学习)的思想很相似。

GPT-3论文里提供了3个版本的性能比较：

显然，in-context learning(情境学习)搭配few-shot learning(小样本学习)效果更好。

原文：Training language models to follow instructions with human feedback

InstructGPT相对GPT-3要解决的是大模型的alignment(对齐)问题。其背景是：大型语言模型会生成一些不真实、有毒(不符合人类道德伦理等)或对用户毫无帮助的输出，显然这些与用户期待的不一致。

大模型在预训练过程中见识了各种各样的数据，因此针对一个prompt/instruct(提示)会输出什么东西，也可能是多种多样的，但是预训练数据中出现的数据模式，不代表都是人类在使用模型时希望看到的模式，因此需要一个alignment(对齐)的过程，来规范模型的“言行举止”。

而实现这个过程InstructGPT引入了RLHF机制(人类反馈强化学习)，实际上6年前的AlphaGo正是充分利用了强化学习，才在围棋领域实现了所到之处无敌手。

简单点说，InstructGPT就是在GPT-3基础上利用RLHF机制(人类反馈强化学习)做了微调，以解决大模型的alignment(对齐)问题。

我们不妨先想一下，应该如何解决模型输出跟人类期待不匹配的问题？

最直接的办法，就是人工构造一大批数据（标注员自己写prompt和期待的输出），完全符合人类的期待的模式，然后交给模型去学。然而，这代价显然太大了。因此，我们得想办法怎么让这个过程变得更轻松一点，RLHF机制(人类反馈强化学习)做到了这一点。

下面是InstructGPT的流程图，看懂了它也就能明白RLHF机制是如何实现的。

Step-1: 称初始模型为V0，也就是GPT-3。我们可以先人工构造一批数据，不用数量很大，尽其所能，然后先让模型学一学，称这个时候模型为V1。

【【微信】】: 然后让模型再根据一堆prompt(提示)输出，看看效果咋样，我们让模型V1对一个prompt进行多个输出，然后让人对多个输出进行打分排序，排序的过程虽然也需要人工，但是比直接让人写训练数据，还是要方便的多，因此这个过程可以更轻松地标注更多数据。然而，这个标注数据，并不能直接拿来训练模型，因为这是一个排序，但我们可以训练一个打分模型，称为RM（reward-model，也即奖励模型），RM的作用就是可以对一个<prompt,output> pair打分，评价这个output跟prompt搭不搭。

Step-3: 接下来，我们继续训练V1模型(被一个策略包装并且用PPO更新)，给定一些prompt，得到输出之后，把prompt和output输入给RM，得到打分，然后借助强化学习的方法，来训练V1模型(打分会交给包着V0模型内核的策略来更新梯度)，如此反复迭代，最终修炼得到V2模型，也就是最终的InstructGPT。

整体理解一下：整个过程就是老师（人类标注员）先注入一些精华知识，然后让模型试着模仿老师的喜好做出一些尝试，然后老师对模型的这些尝试进行打分，打分之后，学习一个打分机器，最后打分机器就可以和模型配合，自动化地进行模型的迭代，总体思路称为RLHF：基于人类反馈的强化学习。

其中，PPO机制( Proximal Policy Optimization，近端策略优化) 是强化学习中AC类(Actor/Critic)的经典算法，由OpenAI 2017年提出，既有Policy Gradient方法的优势，同时基于importance sampling实现experience buffer的利用，发挥类似DQN类算法的数据利用优势。

PPO是OpenAI常用的baseline方法，理论部分相当复杂，感兴趣的专业读者可以阅读原文和相关博客。

原文：Proximal policy optimization algorithms

非专业读者只需要理解到这是一种适应人类反馈强化学习(RLHF)机制完成整个流程训练的策略优化算法即可。

通过以上流程拆解，我们不难发现InstructGPT能通过这种RLHF机制实现更好的性能，有一个大的前提：就是初始模型GPT-3已经足够强大。

只有初始模型本身比较强大了，才能实现人类提供少量的精华数据，就可以开始进行模仿，同时在第二步产出较为合理的输出供人类打分。

根据OpenAI官方介绍，2022/11 发布的ChatGPT和2022/02 发布的InstructGPT在模型结构，训练方式上都完全一致，只是采集数据的方式上有所差异，但是目前没有更多的资料表明数据采集上有哪些细节不同。

所以，ChatGPT的技术原理与他的小兄弟InstructGPT基本一致，相当于InstructGPT是ChatGPT的预热版，也被称为GPT3.5，而传言即将发布的GPT-4是一个多模态模型(可以处理图片+文本+语音等多模态数据)，期待。

至此，从GPT-1到ChatGPT的演进和技术原理就解释得差不多了。

import 有点爆肝

最后来一张Instruct/ChatGPT中文架构流程图，更加清晰易懂。

尽管ChatGPT已经足够人工智能了，但是在众多真实智能人类的鉴定下，它目前还存在不少局限。

1.有时答案会出现事实性错误