chatgpt模型谁发明的 人工智能chatgpt是谁发明的
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
中国印刷术
以下是十个对人类贡献最大的发明,它们对人类的生活产生了深远的影响,推动了人类文明的发展:
- 印刷术:由于印刷术的发明,人们能够更快地传播知识和信息,进一步促进了科学和文化的进步。
- 电力和电灯:电力和电灯的发明,彻底改变了人类的生活方式和工作方式,也使得人们的生活更加舒适、便利。
- 汽车:汽车的发明,使人们能够更快、更便捷地到达目的地,极大地推动了城市化进程。
- 电话:电话的发明,让人们可以随时随地进行远距离交流,极大地改变了人们的社交方式和工作方式。
- 飞机:飞机的发明,使得人们能够快速跨越大洋和大陆,也推动了国际贸易和旅游的发展。
- 互联网:互联网的发明,彻底改变了人们获取信息和社交的方式,也让人们更加方便地进行工作和生活。
- 抗生素:抗生素的发明,极大地提高了人们对疾病的治愈率和生存率,也让人类更好地控制了疾病的传播。
- 无线电和电视:无线电和电视的发明,让人们能够更好地了解世界,也为新闻和娱乐业带来了新的发展机遇。
- 光纤通信:光纤通信的发明,让信息传输更快、更准确,也为电子商务和远程教育带来了新的发展机遇。
- 空调:空调的发明,使得人们能够在炎热的夏天得到更好的舒适体验,也让人们更好地适应了现代城市化生活。
万万没想到的是,在AI眼里空调竟然占据如此重要的地位,看来它们也很怕热哦,哈哈哈,对人工智能最重要的发明应该是散热器。
使用过chatgpt的人应该都知道,它的理论科学相关的知识比较准确,而一旦涉及到排名和故事介绍等需要用到自主意识的能力后,它往往就会出现很多不靠谱的答案,所以建议使用者们千万不要完全“相信”这个家伙,若不是加以查证的话,恐怕你会闹出不少笑话,说到底人工智能只是一个工具,它只会替代人类完成一些重复琐碎、耗费时间的事情,这样会让人类有更多的时间去思考和创造。
因此人工智能一定会让我们的世界更轻松而精彩,只是现如今人们还不太清楚如何与这个进步速度令人恐怖的家伙共处,但是我们已经存在于一个世界里了,并且后续会一起来完善这个世界。
chatgpt是人工智能的里程碑 chatgpt对软件开发可能产生的影响
chatgpt,chatgpt怎么读,chatgpt账号,chatgpt怎么注册?ChatGPT如何细化到垂直领域,比如法律 领域。
? 如何引导ChatGPT做你布置的任务,理解ChatGPT 因果推理和模仿学习的原理。
本文并不是对已发表的大模型论文的技术总结,不是一篇综述文章,而是基于笔者自己的研究分析去探索这些问题的答案。希望能起到一个抛砖引玉的作用。
本文的第一节给出了一些铺垫性的背景知识,略显枯燥。熟知GPT技术的小伙伴们可以直接从第二节开始阅读。本文的写作跨度比较长,大部分的写作完成于OpenAI推出plugins功能之前,所以有少部分技术内容显得有些滞后了。
#01
ChatGPT会带来新的技术革命吗?
最近关于ChatGPT的报道可以用铺天盖地来形容。科技界、产业界、投资界对这个新生事物的热情可以说是史无前例了。各大厂纷纷争先恐后的入局,连谷歌这样的科技头号大厂也被倒逼着进行搜索引擎的改革。比尔盖茨将ChatGPT的诞生比作PC和互联网的发明,埃隆・马斯克说不亚于iPhone,而国内360的掌门人周鸿t直言ChatGPT可能会带来一场新的工业革命。
与此同时,也不乏各种反面质疑的声音。很多人认为这只是一场泡沫,因为ChatGPT存在一些致命的问题,主要集中在:1.超大语言模型知识更新困难,迭代成本高,覆盖面有限,很难进入行业的细分领域;2.超大语言模型会编造事实,喜欢一本正经的胡说八道,让人难辨真伪。
本文就超大语言模型会不会带来技术革命,会出现怎样的新的软件服务计算构架,专业细分领域能不能进去,如何进去,为什么超大语言模型会编造事实及其解决思路等一系列关键性问题进行了比较全面的探讨。
ChatGPT到底是个什么东西,它能做什么,不能做什么?它的边界在哪里?对普通用户来说,ChatGPT感觉就像一个聪明的虚拟人类助手,能够正确理解你的意图,回答你的问题,执行你的任务,不再是人工智障了。但是它的专业知识性显得有些不足。就拿法律领域来说吧,北大法宝的人工智能研究院对ChatGPT的能力进行了比较多的测试,我们发现ChatGPT回答中引用的法条基本上都是错误引用,是捏造的。这就说明ChatGPT现在还记不住中文法条的内容。ChatGPT的英文方面的能力要远好于中文,因为ChatGPT训练中使用的中文语料的数量很少。ChatGPT英文法律法规的引用还是比较准确的,但是到了具体案例和文献引用这一层,ChatGPT还是会出现瞎编乱造,以假乱真的情况。
有些用户认为,这是因为ChatGPT的目前的商业应用还没有顾及到法律这个垂直领域,一旦资本到位,这些知识性不足的问题都是可以通过大量法律领域语料的训练得到完美解决。我们的观点是,大量法律领域语料的训练肯定是可以缓解这些专业知识性不足的问题,但是不能彻底解决。原因很简单,ChatGPT的模型一共是1750亿的参数,存放在硬盘里面也就是1TB的空间。而中国全部案例数据就接近1TB了,所以ChatGPT是不可能记住所有案例的信息的。
实际上,对超大信息的检索能力并不是人工神经网络(ChatGPT背后技术)的强项,在这一点上它的表现要逊于传统的计算机。ChatGPT强大,强大在它对自然语言的理解能力上,而这正是我们机器人和自动化产业所缺乏,所需要的。
我们人类也是记不住这些具体的司法案例的,但我们可以去北大法宝这样的搜索引擎查找。同理,ChatGPT也是可以主动使用关键词技术去搜索引擎进行检索的。ChatGPT可以自动的分析用户的问题,推断出合适的关键词,去搜索引擎搜出结果,然后对结果进行归纳总结,最后将答案返回给用户。微软的NewBing就是采用了这样新型的检索方式。ChatGPT最大的特点就是拟人性,所以ChatGPT是可以通过自主调用搜索引擎或者数据库的这种方式来弥补专业知识性不足的问题,从而进入到行业的细分领域。
ChatGPT目前还仅仅局限于通过对话的方式和人类进行交互,但是MetaAI的研究者们已经开始研究如何让大模型自己学会使用各种API。使用API的技能等于是给ChatGPT增加了一双手。一旦ChatGPT会自己上网搜索、能自己操纵电脑,能使用各种软件工具来完成布置给它的任务,那ChatGPT作为生产力工具的属性将会被极大的释放出来。这绝不是危言耸听,因为目前的ChatGPT已经展现出调用API的能力了。
现在有很多这样的例子,比如微软的NewBing。还有,台大的李宏毅最近发了一个很有意思的用ChatGPT玩文字冒险游戏的视频,里面ChatGPT不但自己生成故事,还可以自动将当前场景中的文字转换为Midjourney的API调用来生成游戏中的插图。这些生成的插图和游戏的场景很贴切。再如,微软团队最近展示了一个用ChatGPT来控制机器人完成各种任务的研究。他们发现可以用自然语言的方式将控制机器人API解释给ChatGPT,之后用户就可以通过自然语言和机器人交互,由ChatGPT将用户的自然语言自动转换为控制机器人的代码。在这个过程中,ChatGPT还展现出了将语料中学习到的世界知识和实际场景相结合的能力。
#02
ChatGPT带来的崭新技术―即时学习能力(in-context learning)
在OpenAI的GPT-3出现之前,以往的深度学习模型只是为某个特定任务开发的,比如,翻译、分类、摘要、信息抽取等等。每个任务都有一个专用的模型,都需要人类标柱员专门为这个任务生成大量的标注数据用来训练模型。而OpenAI采用自监督的方式来训练它的超级大模型GPT-3,不需要任何人类标注数据。它使用了巨量的50TB的文字语料,其中大部分来自于互联网。而它所做的唯一一件训练任务就是根据文本中前面看到的文字,不断的预测下一个文字是什么。
这个1750亿参数的模型充分训练完成以后,就诞生了一件非常奇妙的事情:模型即时学习的能力,术语叫做in-contextlearning(也可翻译为文中学习)。因为GPT-3有根据前面的文字不断预测下一个文字的能力,所以它可以生成文本,可以和人对话。即时学习能力就是指GPT-3在这个交互过程中可以马上领会到你的指令的意图、执行你的任务,并且可以即时学习到新的知识和技能。ChatGPT通过一个良好的人机交互对话界面,充分释放出GPT-3的即时学习能力。
即时学习能力可以分为两种,一种叫zero-shot,另一种叫few-shot。zero-shot就是指你只要说出你的指令,讲解好你的任务是什么,模型就可以自动执行你的任务。你的指令及讲解通常被称之为prompt。比如,你对ChatGPT说,“请讲一个程序员的笑话”。ChatGPT明白了你的意图,马上给你生成了一个笑话,这就是zero-shotlearning。ChatGPT出现之前,如果要完成“讲程序员笑话”这么一个文本动态生成任务,就需要用大量的程序员笑话的数据集来专门训练一个生成式模型。few-shotlearning就是指不光要给出任务的定义,还有给出几个具体的例子来诠释一下。
我们可以看到,即时学习的能力其实和人类学习的方式非常相似。在ChatGPT中,所有的这一切都是通过自然语言交互的方式来实现的,因此就会给大家带来一种拟人性,感觉就像我们长期所追求的通用人工智能到来了。
那么,ChatGPT的即时学习能力现在有多强呢?已经强到把整个NLP行业的从业者卷得哀声载道,甚至有一种声音说NLP技术已经消失了。在开放(open)领域,ChatGPT在NLP的传统任务上可以说几乎已经没有对手了。以往的深度学习模型一般都是针对某个数据集进行调优,堆积各种各样的trick来提高指标的分数。这样带来的问题是,一旦换了一个稍微不一样的数据集,模型性能就会明显下降。比如,在SQuAD阅读理解数据集,一些模型的得分已经超越了人类水平,但是如果你换一个不一样的数据集,这些模型的成绩就会直线下降。
我们可以拿传统的机器翻译和ChatGPT做一个对比。机器翻译几乎是NLP领域目前最好的一个可以落地的应用了,因为现实中存在着大量的并行(双语)语料可以供模型训练使用。不过这些并行语料大多都是收费的,有版权的。ChatGPT并没有用到并行语料进行训练,但它的翻译水平比起这些线上最大机器翻译服务商,谷歌、百度、腾讯、科大讯飞,可以说是不逞多让。从网络媒体上,你能发现这些公司已经感受到了来自ChatGPT的压力,表现出明显的竞争意识。网上一些翻译从业者已经反馈说,ChatGPT的体验要好过这些传统的机器翻译了,特别是在并行语料缺乏的语种上,比如中日翻译。值得一提的是,ChatGPT的翻译水平跟给它的提示词(prompt)非常有关系,而且它能根据你的要求进行灵活多样的翻译。
以上我们做了足够多的铺垫,现在我们开始切入正题。诞生了这么强的即时学习能力以后,以ChatGPT为代表的大模型就成为了一个新的物种,区别于以往为专用任务开发的深度学习模型。大模型不再是任务的执行者,它的角色将转换为底层的赋能者,而它创造出来的各种形形色色具备即时学习能力的“虚拟人”将成为真正的任务执行者。机器学习训练的传统范式也将发生根本性的改变。我们先从下图中的一个简单的例子看起。
ChatGPT通过即时学习的能力记住了我教给它的新知识―中国2022年的人口总数,并在后面的人口列表中使用上了这个新知识。这是多么惊叹的一种能力!按照以往的范式,我们要改变模型存储的知识,需要用新数据在模型上进行多轮的训练。比如,往模型里增加中国2022年的人口总数这个事实,就是非常棘手的一件事情。因为我们不确定训练多少轮以后,模型才能够记住这个事实。而且,我们也不确定对这些新数据训练之后,是否会破坏模型中存储的其它知识。科研界目前也在努力解决这个问题,出现了一个新的研究方向,叫做neuralediting。但是大模型即时学习的能力实际上已经解决这个问题了,而且是用一种近乎完美的方式:一条指令,一步到位。
你这时候可能会反驳说,这条新知识其实并没有真正存储在ChatGPT大模型里面,因为当你打开一个新的对话的时候,这个知识就不存在了。然而,这恰恰是大模型非常大的一个优点:即时学习学到的东西是和母体脱离的,这样就可以实现大模型上层任务的定制化,实现各种各样不同的应用。而所有的这些都不会改变底层大模型的任何参数。底层大模型就像操作系统一样,以赋能者的身份存在。
具备即时学习能力的“虚拟人”可以看作是一种应用程序,它的状态是可以存储的,可以读取的。你教授给它的新知识和新技能并不会丢失。目前ChatGPT能记住4000个(GPT-4是32000个)汉字的上下文关联。这就意味着我们当前对话中前4000个字里面描述过的知识和技能,ChatGPT都不会遗忘。今后,技术的发展肯定会带来更大的记忆体空间。越大的记忆体就意味着越高的“虚拟人”定制化水平,越宽广的任务适用范围。
我们再列举一些ChatGPT通过即时学习能力学习新技能、新任务的例子。第一个例子是关于七言律诗的学习。你如果直接让ChatGPT写七言律诗,它会写得很不符合格式,很随意。但是如果先将百度百科中关于七言律诗的定义告诉ChatGPT以后,ChatGPT就可以写出非常工整的七言律诗。它可以从你给它的定义,马上学习到七言律诗是什么。网络上有很多教ChatGPT各种奇奇怪怪新技能和指派新任务的例子。有人发明了一种新的语言,教给ChatGPT以后,他和ChatGPT就可以用这种新语言交流了。有人让ChatGPT去模拟一个linux内核接受用户的指令,ChatGPT模仿的非常逼真。所有的这些新技能和新任务的学习也仅仅只是一个定义,一个prompt,一步到位。
大模型即时学习的能力把大模型从知识和技能万能者的角色中解放出来了。大模型不再需要做到知识的完美,技能的完美。大模型的知识可以是不完整的,可以不用总是最新的,甚至是可以允许有错的。大模型上层创造出来的各种“虚拟人”会利用即时学习能力来完善任务特有的专业化知识和技能。“虚拟人”还可以通过自主使用API的方式从搜索引擎和数据库中获得大量的、最新的专业化知识。大模型此时真正存在的意义是赋能:即提升“虚拟人”的即时学习的能力和其它能力,比如使用API。当然,在经费开销允许的条件下,我们还是应该尽量保持大模型知识的完整性、最新性和正确性。
即时学习能力也使得我们需要重新审视机器学习长期以来的训练范式了,其中最重要的一点就是任务训练是否可以移到虚拟人这一层通过“调教”虚拟人的方式来完成。我们从下面五个图表示的一个中文信息抽取任务的示例看起。
我首先把任务的简单定义告诉ChatGPT,即抽取给定文本中所有的中国男演员及其电影作品。然后再说明我会通过对话的方式不断地完善这个任务的定义。ChatGPT明白了我的意图,马上要求我确认一下对“中国男演员”和“电影作品”的定义。我遂即告ChatGPT,中国男演员包括港澳台地区的男演员,电影作品只包括电影。这样我们就对任务的定义达成了一致。
接下来,我给了ChatGPT一段文本让它进行抽取。这是金鸡奖的获奖介绍,里面包含比较复杂的人名和影片关系。ChatGPT进行了相当成功的抽取,只犯了一处错误,就是把《奇迹・笨小孩》中的齐溪作为男演员抽取出来了。我指出了这个错误,ChatGPT承认了这个错误,并将之进行了修改。这本质上是一个debug的过程。通过这种表面上简单流畅的对话纠错方式,ChatGPT在内部强化了对“男演员”这一特征的抽取逻辑。在随后的五个抽取测试中,ChatGPT再也没有犯过将女演员抽取出来的错误。我在测试的末尾,对ChatGPT重新进行了这段金鸡奖文本的测试,ChatGPT也没有犯错。
在我后面的五个其它电影节获奖介绍的文本抽取测试中,ChatGPT只犯了一处错误,没有将《我不是药神》中的徐峥抽取出来。考虑到测试文本中人物关系的复杂性,国籍的复杂性,ChatGPT的表现可以算是非常良好。我在测试的过程中,还尝试让ChatGPT重新显示出抽取任务的定义,ChatGPT给出了准确清晰的答案。
如果我们用OpenAI提供的ChatGPTAPI将上述示例中的对话封装起来,就成为一个可实际应用的关系抽取程序。如果将来ChatGPT可以提供指定输入输出文件的功能,你会发现整个过程就不需要任何程序员的介入了。这个NLP抽取的训练任务在一个很高的概念层次完成了,是不是很神奇?当我们发现任何抽取错误的时候,我们都可以通过对话交流的方式让ChatGPT认识到错误,并加以修复。而且所有的这一切都在自然语言交流的情况下发生。
我们再来看一下传统的机器学习范式是怎样处理这个抽取问题,比如用当下流行的BERT模型。我们无法告诉BERT什么是男演员,什么是中国国籍,因为它不懂这些概念。我们只能依靠人工标注成千上万的中国男演员及其电影作品的文本样本,交给BERT模型进行训练。这种训练完全是一种模式上的识别和匹配。在数学上相当于,我们可以直接把函数的定义告诉ChatGPT,但只能用数据点插值的方式让BERT去近似这个函数。在上亿参数的高纬空间里,这种插值定义很难做到高精准,更何况数据集中难免还会存在一定量的错误标注。这也正是为什么许多信息抽取模型到了90分这样的瓶颈就很难再往上提高的原因。当你用一批新标注的数据点去修复模型中的一个错误的时候,往往会带来其它的错误。
从ChatGPT开始,大模型强大的即时学习能力会逐渐让我们把整个任务训练的生命周期都移到虚拟人这一层来完成。这势必是大模型技术的一个发展方向,因为这样做的优势太大了、太诱人了!这将使得我们训练一个任务就像训练一个人类助手一样。我们首先将任务的定义告诉虚拟人,还可以在今后的工作中通过自然语言对话的方式不断地完善改进任务的定义。我们可以让虚拟人阅读完成任务所必要的专业化知识的文章。当我们发现任务执行中的错误的时候,我们可以通过对话交流的方式来Debug。比如说,上例中如果我们发现ChatGPT只抽取了中国内地的男演员,并没有抽取港澳台地区的。我们可以告诉ChatGPT中国男演员是包含港澳台地区的。这就是最精准的、最完美的解决问题的方式。
这将给整个社会带来多大的生产力的释放啊!很多行业花了很多的人力做一些单调的重复性工作,比如,文档归类。每个行业、每个公司的文档归类的定制化需求都不太一样,而对于一些小公司来说,找一个软件开发公司开发一个这样的产品开销太大。有了ChatGPT以后,小公司里的普通员工就可以自己调教一个文档归类的虚拟人,而且可以根据公司的动态需求不断地改进分类的效果。
当然,我们也发现目前ChatGPT的即时学习能力还是存在一些缺陷的。比如,对话不能太长,否则ChatGPT会忘记最开始给它任务设定prompt。还有就是,长对话中杂乱的文本内容对任务定义本身还是会有一定的干扰。随着任务复杂度的增高,整个虚拟人对话记录的长度也会不断增长。还有,将来如果我们真想训练出一个工作中的全能助手,那整个虚拟人对话记录的长度势必达到几十万、几百万的字数级别。这个时候,如果还是使用现在的Transformer技术对每个字符进行注意力计算,每次都动态地整合散落在整个对话记录中的专业知识以及关于任务的定义、补充、修改和纠错,那计算复杂度势必会激增到无法控制的地步。这种重复计算对计算时间也说也是一种极大的浪费。所以我们需要借鉴人脑的工作方式,给虚拟人引入一个长期的记忆体。这些重要的专业知识和技能都会转储在长期记忆体中,而且长期记忆体中存储的内容可以用文字的方式显示给用户进行检查。我们称这项技术叫做“可显示的长期记忆体”。我们将会在第五节《ChatGPT存在的重要技术问题》中进行更深入的探讨。
所以,当前如果你想用ChatGPT生成和封装NLP任务,还是需要尽量保持对话的短小精炼,尽量使得任务的定义清晰,尽量引入具有代表性的少量示例。引入过多的示例反而会造成任务性能的下降。微软的NewBing中也发现了类似的问题,过长的对话会使得ChatGPT偏离一开始对它的Prompt任务设定。
我们并不清楚Transformer如何在算法层面实现这种神奇的即时学习能力,如何通过一条指令就实现了一个算法任务,这是属于神经网络的“魔法”。但在第四节《即时学习能力和强泛化的解释》中,我们会在训练方法等概念层次上对即时学习能力的来源进行深入的探讨。
#03
ChatGPT会带来的新的软件服务计算构架的设想
ChatGPT这次带来的冲击和计算机发展历史中的一个大事件惊人的相似,那就是通用计算机的诞生。在通用计算机诞生以前,没有软件的概念。那个时候电子工程师们需要为每一个应用程序设计专门的逻辑电路,开发专用的计算机。直到艾伦・图灵为解决计算机理论问题而提出图灵机这一伟大发明的时候,人们才发现计算机逻辑可以用代码的形式和数据一起存储,并通过图灵机进行运算。艾伦・图灵并在理论上证明了图灵机这种通用形式可以解决所有专用计算机能解决的问题。
通用计算机的诞生对社会生产力的提升意义重大。学习写代码比学习开发逻辑电路要简单太多了。普通人经过一段较长时间的培训都可以学会写代码。这样一来,社会各行各业都可以从软件开发中受益,社会自动化程度得到快速的提高。
这次ChatGPT的技术变革会带来社会生产力更高层次的跃升。在ChatGPT为代表的通用人工智能出现之前,软件工程师们需要为每一个特定任务开发一个专用的机器学习模型或者代码。ChatGPT诞生之后,普通人就可以通过自然语言交流的方式给ChatGPT安排任务,快速地完成各种复杂的工作。以前,大家还需要找软件开发商来满足自己业务上的需求,现在自己动手就可能可以实现了!将来使用ChatGPT就会像现在使用Word,Excel等办公软件一样的普及。
我们可以设想一下不久的未来ChatGPT将会带来的新的软件服务计算构架,主要可分为赋能层(母体)和应用层(虚拟人世界):
1.底层是一个基础大模型,我们称之为母体。大模型不再是任务的执行者,而是底层的赋能者,其角色就像通用计算机中的操作系统一样。大模型需要为上层提供越来越强的即时学习能力和API访问等其它能力。在知识方面,大模型不需要做到尽善尽美,无所不知,上面的应用层会有办法弥补大模型专业知识不足的问题。但大模型仍然需要尽量做到知识的全面性、正确性、最新性,给应用层提供最有力的支撑。
2.上层的应用层是一个虚拟人或者虚拟人任务的网络,我们称之为虚拟人世界。用户可以根据不同的任务用自然语言交流的方式定制虚拟人。虚拟人有自己单独的记忆体,里面可以存储任务特有的专业化知识和技能。这部分特有知识可以对底层大模型的知识进行补全和覆盖。虚拟人还可以通过自己调用数据库和搜索引擎API来获取完成任务需要的专业知识。类似人类社会的分工机制,虚拟人也可以通过分工的方式来完成更加复杂的任务,这样就会构造出一个虚拟人的网络。虚拟人即时学习到的知识和技能不会对底层大模型的参数有任何影响。当虚拟人停止工作的时候,这部分计算资源就被系统收回,但虚拟人记忆体中的知识和技能可以被保存下来等待下次工作时读取。简而言之,虚拟人的角色就像通用计算机中的应用程序。
底层大模型的首要任务就是要为虚拟人提供强大的即时学习的能力,也就是文中学习的能力。除了道德伦理等必要方面,我们对大模型的限制性微调应该尽量的少,特别是不要破坏它的即时学习的能力,以至于影响到虚拟人的可塑性。
虚拟人的定制化是通过每个虚拟人记忆体中特有的知识和技能来实现的。我们上节说过,长期来看,我们需要为虚拟人开发出“可显示的长期记忆体”技术来提高记忆的稳定性、可靠性、高效性。当前,ChatGPT提供了“隐式”的记忆力,GPT-3.5可以记住对话中前4000个token(汉字)中的内容,而GPT-4可以记住32000个。这些历史对话中的知识可以用来覆盖掉母体中的知识。比如,我们先提供给ChatGPT一个中国人口的数据报告,然后再问它关于人口数据的时候,ChatGPT会优先使用报告中的数据而不是大模型中的数据。这是即时学习能力的一个基本特性,我们将会在下一节进行详细的讲解。
ChatGPT的最终形态可能就是一个超大的智能基座,像供水供电一样为全社会的各行各业提供虚拟人服务。同时,各行各业企业级的反馈又能帮助大模型成长。这时,大模型成长的主要助推动力就不再是人类长期历史文本中积累的知识了,而是各行各业企业级应用中的第一手知识。换一句形象的话说,所有虚拟人的“生活经历”将成为真正推动母体前进的燃料(有趣的是,即时学习并不会直接改变母体的参数)。特别地是,各类大小企业会将在虚拟人应用中遇到的各种错误反馈给智能大基座,为了快速的解决这些问题。因为有利益驱动,所以这些反馈都会是高质量的语料,可以用来不断提升智能大基座的智能水平。
在这个新的计算架构下,我们可以看出知识和技能有两处可选择的存储区域。一个是母体,另一个就是虚拟人的专有记忆体。一般来说,大众的、稳定的、有共识的知识和技能应当由母体来理解记忆;而任务特有的、新型的知识和技能则可以通过即时学习的能力存储在虚拟人的专有记忆体中。
本文章写作时间跨度比较长,文章还差结尾的时候,OpenAI就把ChatGPTplugins的功能推出市场了。因为plugins是一个特别好的可以用来说明如何巧用两处存储区域的例子,我们在这里插入补充一下。plugins作为一种新的技能,可以