open ai创始人谈ai自主进化最新的ai对话技术是什么样的

互联资讯 2023-04-21 21:08:04 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

一、前言

二、ChatGPT的技术原理

?阶段一：基于冷启动的有监督策略模型

?阶段二：基于奖励机制的训练模型

?阶段三：采用强化学习来增强预训练模型

三、使用案例

四、思考

问题一：ChatGPT如此强大，那未来可以商业化，孵化产品吗？

问题二：ChatGPT会代替传统的搜索引擎吗？

问题三：我们可以借鉴ChatGPT哪些方面呢？

五、ChatGPT 镜像

六、参考文献

12月1日，OpenAI公司官宣了其目前最强大的AI对话模型ChatGPT，最近几天极其火爆，朋友圈也都是案例，网上都是铺天盖地的ChatGPT相关案例和测试内容，效果确实非常震撼。上一次引起如此轰动的AI技术，NLP领域还是GPT3模型，那已经两年前的事情了，如今是恍如昨天。多模态领域则是DaLL E2、Stable Diffusion为代表的Diffusion model，这也是最近火了大半年的AIGC模型，常见就是输入几个关键词，模型可以用作作画，而且水平似乎已经超过普通人。如今，AI的星火又传到了ChatGPT身上，它也是属于AIGC领域。AI泡沫逐渐破裂的今天，AIGC又给了AI一副济世良药。ChatGPT主要是基于GPT3.5来实现的，OpenAI官方也说明GPT4模型即将来临，也更加期待他的效果。看来AIGC将会成为AI行业的一丝希望和温暖，AIGC或许是AI奇点，AI下半场主角。

说回ChatGPT，我们主要从两个角度，一个是技术角度来聊聊，另一个是脑洞比较大的案例上，看看有哪些业务场景。

首先，ChatGPT到底是采用了怎样的技术，才能做到如此超凡脱俗的效果？既然chatGPT功能如此强大，那么它可以取代Google、百度等现有搜索引擎吗？如果能，那是为什么，如果不能，又是为什么？

其次，ChatGPT到底有哪些较好的案例，这些案例都说明什么问题？给了AI从业人员哪些思考？

图 2022年gartner技术成熟曲线

现在访问 ChatGPT 官网至少需要满足以下两点：

1.?ChatGPT 账号

2.?特定地区（需要特定网络解决）

文章末尾提供了一个 ChatGPT 镜像，可直接访问，无需账号，无区域限制。

官方博客中介绍到，ChatGPT是基于GPT-3.5（模型card&#【【网址】】/ai-resources/pretrained-models/gpt-3-5?）微调的结果。ChatGPT是InstructGPT的兄弟模型（InstructGPT是官方训练的一个比GPT-3更好的遵循用户意图的语言模型，是基于OpenAI的alignment research技术研发的，比GPT-3更强的语言模型）。

ChatGPT的训练使用了基于人类反馈的强化学习（ Reinforcement Learning from Human Feedback，RLHF）。这点与InstructGPT一样，但是在数据收集方面有差异。OpenAI使用监督下的微调训练了一个初始模型：人类AI训练员提供对话，他们在对话中扮演双方―用户和人工智能助理。这可以让训练者接触到模型编写的建议，以帮助他们组成他们的回应。

接下来是张俊林老师的一段描述，感觉非常能够总结官网的介绍。

整体技术路线上，ChatGPT在效果强大的GPT 3.5大规模语言模型（LLM，Large Language Model）基础上，引入“人工标注数据+强化学习”（RLHF，Reinforcement Learning from Human Feedback ，这里的人工反馈其实就是人工标注数据）来不断Fine-tune预训练语言模型，主要目的是让LLM模型学会理解人类的命令指令的含义（比如给我写一段小作文生成类问题、知识回答类问题、头脑风暴类问题等不同类型的命令），以及让LLM学会判断对于给定的prompt输入指令（用户的问题），什么样的答案是优质的（富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准）。

基于“人工标注数据+强化学习”，ChatGPT整体训练架构如下图所示。

图整体训练流程图

具体而言，ChatGPT的训练流程分为三个阶段：基于冷启动的有监督策略模型、基于奖励机制的训练模型、采用强化学习来增强预训练模型。

靠GPT 3.5本身，尽管它很强，但是它很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令中蕴含的意图，首先会从测试用户提交的prompt(就是指令或问题)中随机抽取一批，靠专业的标注人员，给出指定prompt的高质量答案，然后用这些人工标注好的<prompt,answer>数据来Fine-tune GPT 3.5模型。经过这个过程，我们可以认为GPT 3.5初步具备了理解人类prompt中所包含意图，并根据这个意图给出相对高质量回答的能力，但是很明显，仅仅这样做是不够的。

这个阶段的主要目的是通过人工标注训练数据，来训练奖励模型。具体而言，随机抽样一批用户提交的prompt(大部分和第一阶段的相同)，使用第一阶段Fine-tune好的冷启动模型，对于每个prompt，由冷启动模型生成K个不同的回答，于是模型产生出了<prompt,answer1>,<prompt,answer2>….<prompt,answerK>数据。之后，标注人员对K个结果按照很多标准（上面提到的相关性、富含信息性、有害信息等诸多标准）综合考虑进行排序，给出K个结果的排名顺序，这就是此阶段人工标注的数据。

接下来，我们准备利用这个排序结果数据来训练回报模型，采取的训练模式其实就是平常经常用到的pair-wise learning to rank。对于K个排序结果，两两组合，形成 (k 2) 个训练数据对，ChatGPT采取pair-wise loss来训练Reward Model。RM模型接受一个输入<prompt,answer>，给出评价回答质量高低的回报分数Score。对于一对训练数据<answer1,answer2>，我们假设人工排序中answer1排在answer2前面，那么Loss函数则鼓励RM模型对<prompt,answer1>的打分要比<prompt,answer2>的打分要高。

归纳下：在这个阶段里，首先由冷启动后的监督策略模型为每个prompt产生K个结果，人工根据结果质量由高到低排序，以此作为训练数据，通过pair-wise learning to rank模式来训练回报模型。对于学好的RM模型来说，输入<prompt,answer>，输出结果的质量得分，得分越高说明产生的回答质量越高。

第三阶段：采用强化学习来增强预训练模型的能力。本阶段无需人工标注数据，而是利用上一阶段学好的RM模型，靠RM打分结果来更新预训练模型参数。具体而言，首先，从用户提交的prompt里随机采样一批新的命令（指的是和第一第二阶段不同的新的prompt，这个其实是很重要的，对于提升LLM模型理解instruct指令的泛化能力很有帮助），且由冷启动模型来初始化PPO模型的参数。然后，对于随机抽取的prompt，使用PPO模型生成回答answer，并用上一阶段训练好的RM模型给出answer质量评估的回报分数score，这个回报分数就是RM赋予给整个回答（由单词序列构成）的整体reward。有了单词序列的最终回报，就可以把每个单词看作一个时间步，把reward由后往前依次传递，由此产生的策略梯度可以更新PPO模型参数。这是标准的强化学习过程，目的是训练LLM产生高reward的答案，也即是产生符合RM标准的高质量回答。

如果我们不断重复第二和第三阶段，很明显，每一轮迭代都使得LLM模型能力越来越强。因为第二阶段通过人工标注数据来增强RM模型的能力，而第三阶段，经过增强的RM模型对新prompt产生的回答打分会更准，并利用强化学习来鼓励LLM模型学习新的高质量内容，这起到了类似利用伪标签扩充高质量训练数据的作用，于是LLM模型进一步得到增强。显然，第二阶段和第三阶段有相互促进的作用，这是为何不断迭代会有持续增强效果的原因。

尽管官方对于ChatGPT的能力描述很简单，但是从实际大家使用的期刊来看，这个系统可以做的事情远超大家想象。这里我们会列举目前收集的ChatGPT的使用案例，供大家参考。

案例序号	案例名称	案例来源
1	生成AI Prompt	href=&#【【网址】】/GuyP/status/1598020781065527296" https://twitter.com/GuyP/status/1598020781065527296
2	编写iOS SwiftUI APP	href=&#【【网址】】/a【【微信】】/status/【【QQ微信】】【【QQ微信】】" https://twitter.com/a【【微信】】/status/【【QQ微信】】【【QQ微信】】
3	学习技术	href=&#【【网址】】/HamelHusain/status/1598834924848836609" https://twitter.com/HamelHusain/status/1598834924848836609
4	写出一个可以生成小鸟图片的Python脚本	href=&#【【网址】】/bgavran3/status/【【QQ微信】】【【QQ微信】】" https://twitter.com/bgavran3/status/【【QQ微信】】【【QQ微信】】
5	写【【微信】】脚本	href=&#【【网址】】/【【微信】】/status/【【QQ微信】】【【QQ微信】】" https://twitter.com/【【微信】】/status/【【QQ微信】】【【QQ微信】】
6	参与SAT考试	href=&#【【网址】】/da【【微信】】/status/【【QQ微信】】569" https://twitter.com/da【【微信】】/status/【【QQ微信】】569
7	自然语言转成Latex	href=&#【【网址】】/jdjkelly/status/1598021488795586561" https://twitter.com/jdjkelly/status/1598021488795586561
8	解释代码	href=&#【【网址】】/goodside/status/1598129631609380864" https://twitter.com/goodside/status/1598129631609380864
9	改写故事	href=&#【【网址】】/raphaelmilliere/status/1598469100535259136" https://twitter.com/raphaelmilliere/status/1598469100535259136
10	【【微信】】代码	href=&#【【网址】】/amasad/status/1598042665375105024" https://twitter.com/amasad/status/1598042665375105024
11	写计算机网络家庭作业	href=&#【【网址】】/abhnvx/status/【【QQ微信】】【【QQ微信】】" https://twitter.com/abhnvx/status/【【QQ微信】】【【QQ微信】】
12	替代搜索引擎	href=&#【【网址】】/RajJohri2019/status/1598492953764315137" https://twitter.com/RajJohri2019/status/1598492953764315137
13	创作短剧	href=&#【【网址】】/rgodfrey/status/1598162900140445697" https://twitter.com/rgodfrey/status/1598162900140445697
14	创作食谱	href=&#【【网址】】/stephsmithio/status/1598920887029628928" https://twitter.com/stephsmithio/status/1598920887029628928
15	反编译汇编代码	href=&#【【网址】】/mahal0z/status/1598536939942006784" https://twitter.com/mahal0z/status/1598536939942006784
16	代写办公邮件	href=&#【【网址】】/CubicleApril/status/1598753388895797282" https://twitter.com/CubicleApril/status/1598753388895797282
17	写年度总结报告	href=&#【【网址】】/shanselman/status/1599073011050872832" https://twitter.com/shanselman/status/1599073011050872832
18	闲聊	href=&#【【网址】】/t3dotgg/status/1598954493680713729" https://twitter.com/t3dotgg/status/1598954493680713729
19	撰写技术博客	href=&#【【网址】】/goodside/status/1598235521675038722" https://twitter.com/goodside/status/1598235521675038722
20	逻辑推理问题	href=&#【【网址】】/Robdeprop/status/1598285166971351040" https://twitter.com/Robdeprop/status/1598285166971351040

以上就是我们收集的关于ChatGPT的一些应用案例，很多内容都是重复的。不过从案例收集的结果来看。ChatGPT在编码上有很好的水平，同时在艺术创作、技术创作、办公、逻辑算术等方面都有很不错的表现。需要注意的是，ChatGPT是支持多轮对话的，它可以和你一起进行多次对话来修补回答。在写app和函数的案例中，如果你对答案不满意，可以要求怎么去修改它。这些案例让很多人认为这就是一个通用型人工智能的雏形，也是GPT-4的结果。

自己亲自体验了一把，玩嗨起来。

场景一：角色扮演：假如你是李白。看这作的诗集有模有样。

openai给科技行业敲响警钟 open ai 与谷歌竞争什么

openai官网,openai api key获取,openai怎么读,openai gpt4

“硅兔君荐语

真正的ChatGPT之父，谷歌没有的大杀器

为什么全球热门应用ChatGPT诞生在OpenAI？

近日，外媒The Information的一篇深度稿件试图道出原因。根据多方采访，一个长达五年的ChatGPT产品研发落地故事浮出水面，背后的第一推手也随之显现。

时间追溯到2017年，OpenAI还是一家50人的非营利组织，时任OpenAI首席技术官的格雷格・布罗克曼（Greg Brockman）担心被谷歌旗下的DeepMind等对手甩在身后，因此他带头开始了一场旷日持久的作战。

ChatGPT项目团队试练是在DOTA2游戏，一种很新的协作方式随之诞生，而布罗克曼则作为“游走总裁”在各个部门“搅局”，80%时间亲自下场写代码。OpenAI CEO萨姆・阿尔特曼（Sam Altman）及其他董事会成员都称他是ChatGPT产品化的第一推手、“在科技界是罕见的”、“谷歌没有这样的人”。尽管如此，他也造成了OpenAI代码的混乱，带来新的麻烦。

▲格雷格・布罗克曼（左）和萨姆・阿尔特曼（右）

如果说阿尔特曼是OpenAI的招牌，那么布罗克曼就是OpenAI的秘密武器。

布罗克曼是一个从小镇走出、从哈佛和MIT辍学创业的标准硅谷传奇人物，他在偶然的机会参与了2015年那场瑰丽酒店晚宴的OpenAI创业大筹划，而后成为OpenAI最得力的“问题解决者”。在众多项目中，他都擅长“优化OpenAI系统的速度和成本”到极致，包括ChatGPT项目。

ChatGPT项目的进展并不是一帆风顺的。2017年，OpenAI由于非盈利性质面临巨大压力，创始人之一埃隆・马斯克因此退出，转而基于商业公司特斯拉做AI开发。布罗克曼是在此背景下开战DeepMind的，就像所有的AI创企面临的问题一样，AI开发成本翻番、“要理想还是面包”等问题横亘在布罗克曼面前。副总裁达里奥・阿莫迪（Dario Amodei）等人带队离职创业，也让工作更难开展，OpenAI内部一度蔓延着焦虑和担忧。

▲萨姆・阿尔特曼（左）和埃隆・马斯克（右）

但布罗克曼的担忧并没有成为现实，相反，ChatGPT在2023年注册人数激增，让谷歌和DeepMind措手不及，追赶着开发自己的AI聊天机器人Bard。

微软一直在努力将自己的AI研究转化为能够产生收入的产品，已经向OpenAI投入了数十亿美元以获得其技术，使得OpenAI成立7年估值超200亿美元。

从技术展望来看，通用人工智能（AGI）系统将比ChatGPT先进得多，能够做从开创性研究到创办公司的所有事情。布罗克曼看好这一技术的前景，将和团队继续加紧研发。他说：“如果我们认为我们今天思考问题的方式会在五年后保持不变，那就太天真了。”

ChatGPT的诞生：追溯到DOTA2游戏项目，总裁游走“搅局”

一款产品的成功不是一个人的功劳，但往往有一个能力卓绝的人在主要推动。在ChatGPT产品的成功背后，人们知道有近百个全球顶尖科学家和工程师作出贡献，但鲜少听说幕后推手如何掌控全局。

1、AI游戏软件项目，为ChatGPT提供研发项目范本

2017年，OpenAI还是一家50人的非营利组织，时任OpenAI首席技术官的布罗克曼担心被谷歌旗下的DeepMind等对手甩在身后，因此他带头发起了一项计划：让OpenAI的研究人员和工程师协作，开发出可以玩复杂在线战斗游戏DOTA2的软件OpenAI Five。

open ai创始人谈ai自主进化 最新的ai对话技术是什么样的

openai给科技行业敲响警钟 open ai 与谷歌竞争什么

open ai创始人谈ai自主进化最新的ai对话技术是什么样的