gpt 逻辑推理能力 gpt-3 推理

互联资讯 2023-03-31 07:50:04 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

Pine 萧箫金磊发自凹非寺

量子位 | 公众号【【微信】】

“AI确实可能杀死人类。”

这话并非危言耸听，而是OpenAI CEO奥特曼的最新观点。

而这番观点，是奥特曼在与MIT研究科学家Lex Fridman长达2小时的对话中透露。

不仅如此，奥特曼谈及了近期围绕ChatGPT产生的诸多问题，坦承就连OpenAI团队，也根本没搞懂它是如何“进化”的：

从ChatGPT开始，AI出现了推理能力。但没人能解读这种能力出现的原因。

唯一的途径是向ChatGPT提问，从它的回答中摸索它的思路。

针对马斯克在推特上的“危险论”，他直言：

马斯克在我心中是英雄，我支持也理解他的担忧。

虽然他在推特上挺混蛋的，但希望马斯克能看到我们在解决AGI安全问题上付出了多大的努力。

除此之外，在这场对话过程中，奥特曼还提到了不少刁钻的话题，例如：

ChatGPT、GPT-4开发的内幕

GPT-4是人类迄今所实现的最复杂的软件

如何看待大家拿ChatGPT越狱

……

在看过这场对话之后，网友直呼：

两位AI大佬用大家都能理解的方式聊AI，多来点这样的访谈。

那么接下来，我们就来一同看下他们这场深度对话。

GPT-4内幕大曝光

GPT-4是这场对话中最受关注的部分。

它是如何训练的？如何在训练模型时避免浪费算力？如何解决AI回答不同价值观的人的问题？

首先是训练过程，依旧是预训练+RLHF，不过透露了一点具体细节。

GPT-4早在去年夏天就已经训练完成，后面一直在进行对齐工作，让它表现得更符合人类需求。

相比预训练数据集，RLHF所用的数据非常少，但效果是决定性的。

对此，奥特曼透露了一点数据来源，包含一些开源数据集、以及合作商提供的部分数据集。

当然，数据集中也有一点Reddit论坛上出现的迷因梗（meme），但不是很多。对此奥特曼遗憾表示：

如果再多点，它的回答可能会更有趣。

即便如此，团队甚至奥特曼自己依旧不能完全解读GPT-4。

目前对它的解读方式，依旧是通过不断问它问题，通过它的回答来判断它的“思路”。

而就在不断测试中，OpenAI发现从ChatGPT开始，GPT系列出现了推理能力。

虽然ChatGPT绝大部分时候都被当做数据库使用，但它确实也出现了一定的推理能力，至于这种能力具体如何出现的，目前却无人能回答。

但大模型的训练往往意味着大量算力需求。对此奥特曼再次提到了OpenAI独特的训练预测方法：

即便模型很大，团队目前也有办法只通过部分训练，预测整个模型的性能，就像是预测一名1岁的婴儿能否通过SAT考试一样。

关于这一点，在GPT-4论文和官方博客中也有更详细介绍。

最后奥特曼承认，GPT-4确实存在应对不同价值观的人的问题。

临时解决办法就是把更改系统消息（system message）的权限开放给用户，也就是ChatGPT中经常见到的那段“我只是一个语言模型……”。

通过改变系统消息，GPT-4会更容易扮演其中规定的角色，比在对话中提出要求的重视程度更高，如规定GPT-4像苏格拉底一样说话，或者只用JSON格式回答问题。

所以，对于GPT系列来说，谁最可能载入人工智能史册？奥特曼倒不认为是GPT-4：

从可用性和RLHF来看，ChatGPT无疑是最具里程碑的那一个，背后的模型没有产品的实用性重要。

最会打太极的CEO

GPT-4论文中没有透露参数规模、训练数据集大小等更多细节，还被外界吐槽越来越不Open了。

在这次访谈中，面对主持人步步追问，奥特曼依旧守口如瓶。

GPT-4预训练数据集有多大？奥特曼只是很笼统的介绍了有公开数据集、有来自合作伙伴的内容（如GitHub提供的代码）还有来自网络的内容。

活像ChatGPT也能写出来的那种赛博八股文，只有在谈到Reddit的时候透露了网络梗图在训练数据中占比不大，“不然ChatGPT可能更有趣一些”。

GPT-4模型参数量有多大？奥特曼只是说之前疯传的100万亿参数是谣言，然后又糊弄过去了。

我认为人们被参数竞赛所吸引，就像过去被CPU的主频竞赛所吸引一样。现在人们不再关心手机处理器有多少赫兹了，关心的是这东西能为你做什么。

不过奥特曼对于一种说法是持有肯定态度――“GPT-4是人类迄今所实现的最复杂的软件”。

但在主持人Lex突然抛出一些时下针对GPT-4的尖锐观点时，奥特曼的应对也堪称“AI般淡定”（狗头）。

例如，关于前段时间闹得沸沸扬扬的GPT-4越狱问题。

一名斯坦福教授仅仅用30分钟，就诱导GPT-4制定出了越狱计划，并全部展示了出来。

对此奥特曼表示，就如同当年iPhone也面临被“黑”或者说越狱的问题（如当年免费的越狱版App Store）一样，这并非不能解决的事情。

奥特曼甚至坦承，他当年就把自己的第一台苹果手机越狱了――甚至当时觉得这是个很酷的事情。

但现在已经没有多少人去干苹果越狱的事情了，因为不越狱也足够好用了。

奥特曼表示，OpenAI的应对思路同样如此，即把功能做的足够强，他甚至表示，愿意在这方面给用户开更多权限，以便了解他们到底想要什么。

除此之外，Lex还提到了马斯克对于奥特曼的批评。

奥特曼虽然是当年被马斯克一手提拔的人才，但如今马斯克不仅退出了他们联手创办的OpenAI，还对OpenAI现状十分不满，经常在推特上阴阳怪气这家公司。

我捐1亿美金成立的非营利组织怎么就变成一个300亿市值的营利性公司了呢？如果这是合法的，为什么其他人不这样做？

作为OpenAI现任CEO，奥特曼并未直接回应此事，而是调侃了一下马斯克在航天领域也经常被“老前辈”们批评的事情。

这一系列采访问答，不禁让人想到在ChatGPT发布后，奥特曼对于记者“将ChatGPT整合进微软必应和Office”问题的回应方式：

你知道我不能对此发表评论。我知道你知道我不能对此发表评论。你知道我知道你知道我不能对此发表评论。

既然如此，为什么你还要问它呢？

GPT的“偏见”不会消失

GPT在迭代过程中“偏见”必然存在，它不可能保持完全中立。

在主持人提到关于ChatGPT以及GPT-4种存在的偏见问题时，奥特曼这样回应道。

ChatGPT在推出之初，就不是一个成熟的产品，它需要不断迭代，而在迭代的过程中，仅仅依靠内部的力量是无法完成的。

“提前”推出ChatGPT技术，是要借助外部世界的集体智慧和能力，同时也能让全世界参与进“塑造AI”的过程中。

而不同人对于问题的看法也各不相同，所以在这个过程中，“偏见”问题就不可避免。

甚至奥特曼在话里话外也透露着：在GPT中，“偏见”永远不会消失。

他将外部参与建设GPT比作“公开领域建设的权衡”。

GPT生成答案是个性化控制的结果，迭代的过程则是更精准地控制“个性化”的过程。

有趣的是，期间奥特曼还暗戳戳“背刺”起了马斯克的推特：

推特摧毁掉的多元性，我们正在将其找回来。

（嗯，奥特曼是懂一些话术的）

当然，谈到ChatGPT，总绕不开其背后的公司OpenAI，在成立之初，它就立下了两个Flag：

1、非营利性

2、通用人工智能（AGI）

如今，已经过去八年之久，这两个Flag也是发生了巨大的变化：AGI的大旗还在高举，而非营利性这面旗则已经摇摇欲坠。

对此，奥特曼也是分别作出了回应。

对于OpenAI“非营利性质”的逐渐削弱，奥特曼直言：很久之前，就已经意识到非营利性不是长久之计。

仅仅依靠非营利筹集到的资金对OpenAI的研究来说远远不够，商业化是必然选择。

但在之后奥特曼也试图“找补”回一些，称目前的商业化的程度仅止于满足投资者与员工的固定回报，剩余资金还是会流向非营利性组织。

提到AGI，一开始在OpenAI声称要做通用人工智能时，还有一堆人在嘲讽，如今做出GPT-4这样的产品，回过头来再看，嘲讽的声音已经越来越少了。

而面对外界询问“GPT-4是AGI吗”这样的问题时，奥特曼则是直接给出了自己理解中的AGI：

AGI所掌握的知识应该是要超过人类科学知识总和的，并且具有创造性，能够推动基础科学的发展；

而目前所有GPT并不能做到这些，想要达到AGI还需要在目前GPT的范式上进行拓展，至于如何拓展，正是目前所缺乏的。

值得一提的是，谈到AGI时，是奥特曼在访谈中鲜有的“两眼放光”的时刻。

他抛出了一句极具“科研分子理想情怀”的金句：

也许AGI是永远抵达不了的乌托邦，但这个过程会让人类越来越强大。

但奥特曼并不否认过分强大的AGI“可能杀死人类”这一观点：

我必须承认，（AI杀死人类）有一定可能性。

很多关于AI安全和挑战的预测被证明是错误的，我们必须正视这一点，并尽早尝试找到解决问题的方法。

One More Thing

在谈话最后，Lex Fridman还试图让奥特曼讲一些给年轻人们的建议，奥特曼直接来了个“反鸡汤文学”：

网络上的“成*”帖子太诱人，建议不要听太多建议。

我就是无视建议做到现在这样的。

最容易被chatgpt替代的行业及原因 ChatGPT会代替哪些行业

最容易也最有可能被ai取代的职业特征为,容易被替代的商品,其需求弹性( ),最容易被替代的职业,什么是最容易被察觉的一种身体语言

然而，一切震动源于ChatGPT。

ChatGPT，一款由美国 OpenAI公司研发的人工智能（AI）模型，最早发布于2022年11月30日，上线两个月内即突破1亿用户，成为全球最快用户破亿的互联网软件。OpenAI则以290亿美元身价成为地球上估值最高的初创公司。

在大众认知中，ChatGPT是一款真正的聊天机器人，输入任意语句，即可得到符合人类表达习惯的回应。在探索中，ChatGPT的使用已遍布各个领域。经谷歌面试官测试，ChatGPT可以顺利通过公司年薪18万美元的工程师招聘考试；北密歇根大学的一位哲学教授发现，全班最好的论文是由学生使用ChatGPT完成的；完全不懂编程的零基础网友，成功使用ChatGPT制作出游戏。

图为调试后，ChatGPT所作回应

生成文案、修改代码、撰写小说、分析数据……面对ChatGPT强大的交互功能，比尔・盖茨评价：这种人工智能技术出现的重大历史意义，不亚于互联网和个人电脑的诞生。

在几个月的AI浪潮之中，ChatGPT被一众网友数度封神。

然而，事实果真如此吗？

“单字接龙”的思考

ChatGPT全称Chatbot based on Generati【【微信】】rmer，其命名由两部分组成，“Chat”指与人进行聊天或对话的功能；“GPT”指Generati【【微信】】rmer，这是一个由OpenAI开发的大型自然语言处理（NLP）模型。可以说，ChatGPT是NLP模型的典型应用之一，而NLP则是人工智能领域的一个重要分支。

不同于大众认知，ChatGPT并不是搜索引擎的升级版本，【【淘密令】】知名科普UP主YJango说，ChatGPT的实质功能可以用“单字接龙”来概括。“具体来说，就是给它任意长的上文，它会用自己的模型去生成下一个字。”

换言之，ChatGPT本身能做的事，只有“生成下一个字”。

YJango科普，用户所看到的ChatGPT回答，全部是用同一个模型根据不同的上文生成所得。回答长问题时，ChatGPT会将自己生成的下一个字和之前的上文组合成新的上文，再让模型以此生成下一个字。例如，当ChatGPT获取“我”这个上文时，可能会生成“是”，之后，ChatGPT会根据“我是”，计算生成第三个字。不断重复这一过程，就可以生成任意长度的下文。该过程也叫“自回归生成”。

YJango指出，影响ChatGPT生成结果的因素主要有两个：上文及模型。模型就相当于ChatGPT的大脑。

ChatGPT的生成过程包含随机性。在ChatGPT中，即使输入相同的问题，即同一个上文，也会得到不同的回复。这是因为ChatGPT在生成回复时，模型会为每个可能的单词分配一个概率分数。这些分数代表了在给定上下文的情景中，模型认为这些单词出现的可能性。根据这些概率分布，模型会选择一个单词作为回复的一部分。

在选择单词时，模型通常使用一种叫作温度的超参数来调整生成过程中的随机性。较高的温度会使模型倾向于选择不同的单词，从而产生更多样化的回复，但可能牺牲一定的连贯性；相反，较低的温度会使模型更倾向于选择具有较高概率的单词，从而产生更一致的回复。

随机性和温度超参数，让ChatGPT的“单字接龙”看起来似乎在做不同的“思考”。底层的模型架构和训练方法则赋予了ChatGPT“创造”的能力。

YJango说，以“单字接龙”的方式来训练模型，是为了让ChatGPT学会提问和回答的通用规律，以便ChatGPT利用所学规律生成用户想要的回答，这种举一反三的目标称之为“泛化”。至此，ChatGPT拥有了“创造不存在的文本”的能力。

但这也意味着，如果出现了“实际不同但碰巧符合同一个规律”的内容，ChatGPT模型就可能混淆它。YJango指出，最直接的结果是，如果现实中不存在的内容刚好符合ChatGPT从训练材料中学到的规律，ChatGPT就有可能对不存在的内容进行“合乎规律的混合捏造”。

从量变到质变

在NLP领域，ChatGPT带来的震撼远不及普通用户所感。

本次在全世界范围内掀起热潮的ChatGPT基于GPT-3.5模型，随后，OpenAI于北京时间3月15日向付费用户发布了GPT-4模型下的ChatGPT，即微软接入的模型版本。

然而，在GPT-3.5之前，上一代模型GPT-3早在2020年就已发布，是当时已知最大的NLP模型之一。

“这几代模型的原理和运作方法并没有本质上的区别。”新浪微博NLP工程师杜则尧指出，其进步来自于算力的进步和展现方式。

算力是指计算机、服务器或其他计算设备在执行计算任务时的处理能力。“可以将算力理解为计算机完成任务的速度和效率。在日常生活中，算力越高的计算机系统，处理复杂任务的速度越快，执行多个任务的能力也就越强。”杜则尧说。

在人工智能领域中，算力对于训练和运行模型至关重要，过去几年中，随着相关硬件的进步，大幅提高的算力为GPT模型的优化提供了现实基础。

中国科学院自动化研究所研究员张家俊在媒体上说，2022年，OpenAI利用更多文本数据和代码数据的混合学习，得到了更强的基础大模型GPT-3.5，从而使ChatGPT实现了流畅性、知识性和逻辑性。

杜则尧认为，算力的进步和庞大、优质的数据“喂养”，让GPT得以产生从量变到质变的飞跃。

此外，在医疗NLP算法专家张海鹏看来，ChatGPT基于自然语言对话的交互模式，是这款聊天机器人“出圈”的关键。

“2016年打败围棋世界冠军李世石的AlphaGo给AI领域带来的震撼，不亚于今天普通用户看到ChatGPT的感觉。但由于AlphaGo没有通用的落地场景，难以与大众进行交互，故而没有像ChatGPT一般，深入到各个行业中去。”张海鹏告诉记者。

输入问题，得到答案。屏幕内外，人类与AI的真正对话或许可以从ChatGPT开始。

一种打击或一种希望

ChatGPT的破圈让大语言模型LLM（Large Language Model）“照进现实”。

“大语言模型指一类基于神经网络的NLP模型，通过学习大量语言数据，从而完成对输入文本的预测、生成、分类等任务。这类模型具有很高的准确度和泛化能力，被广泛应用于自然语言处理、知识图谱、机器翻译等领域。”张海鹏指出：“ChatGPT是一个面向通用领域的大语言模型，也就是说，各行各业的人都可以用它，因为它‘吃’进去的数据足够全面。”

理所当然地，医疗领域同样在ChatGPT中拥有一席之地。在张海鹏的测试中，ChatGPT在医学实体抽取与属性识别、医学术语标准化能力、医疗关系抽取能力、问句相似性匹配、智能分诊、合理用药、病例质控等方面展现出惊人的能力。

例如，向ChatGPT 提问“‘头痛伴发烧三天’这句话中，‘头痛’和‘三天’的关系是什么？”ChatGPT可正确识别“头痛”和“三天＂之间存在时间关系，并给出详细说明。再例如，提问“‘糖尿病的危害’和‘糖尿病肾病的危害’含义相似吗？”，ChatGPT可识别二者含义不太相似，并给出理由。

但在合理用药、病理质控等复杂方向的提问中，ChatGPT有“胡说八道”的情况出现。但是，其回应虽然没有达到100%的正确率，但在医疗行业极高的专业壁垒之下可以完成所有对话，并在超过一半的提问中给出正确答案已经令人足够惊喜。

张海鹏认为，“在医疗NLP中，上述每一个问题几乎都需要不同的团队搭建特定模型，现在，ChatGPT仅凭一己之力就可以拿到及格以上的分数。”

“ChatGPT一定会挤压NLP的基础研究，但鉴于医疗行业的专业壁垒和数据独特性，ChatGPT这类通用模型落到垂直领域后，究竟会挤压多少空间还不得而知。当ChatGPT触及更多医疗细节场景时，LLM缺失的专业数据一定会展现出更大的偏差，这份偏差就是医疗NLP的生存空间。”张海鹏说。

但抛去细节场景与专业精准度，“击穿基础问题”意味着医疗机构不必耗费高额资金寻觅第三方公司从零开始解决智能分诊、医学术语标准化能力等基础问题。在合作允许的情况下，对于预算不够充足的小医院而言，将ChatGPT加以调试，或许就可以解决院内的部分刚需。在偏远地区及乡村基层，这可能是平衡医疗资源的极佳选择。

一种保护或一种阻碍

然而，医疗NLP的发展，或许无法像其他行业一般迅猛。

“ChatGPT通过提供一个效果非常不错的版本作为服务基础，以一种全球用户都能理解的对话的交互方式，吸引了无数不同背景的‘共建者’，构建了无数涉及各行各业的对话流程，通过点击赞同或反对的简单操作，拿到了无数的反馈信号。这些信号的持续利用，会使得ChatGPT的效果持续提升，从而进入到数据飞轮效应：更多的数据带来更好的对话效果，更好的对话效果带给用户更多价值，从而带来更多用户，从而得到更多的数据，生生不息。”在张海鹏的描述中，数据飞轮效应令人神往。

这是亚马逊创始人杰夫・贝佐斯（Jeff Bezos）在1997年强调的一个概念，当数据采集越多、处理越快、应用越广，就会越来越快地推动更多的数据采集、处理和应用，形成一种数据的生态循环。

这是ChatGPT快速壮大的“秘诀”之一，亦是极为依赖数据的NLP模型的理想状态。

但在医疗领域，由于临床医疗等敏感数据互不相通，数据飞轮效应难以得到复现。根据《医疗机构病历管理规定》等相关法规和规定，临床病历等数据并不对外开放。“目前，在涉及到临床数据的研究中，容易获得的数据库大多为MIMIC-III等国外经典临床数据库，中国目前还没有公开可用的临床数据库。”

另一方面，即便拥有了可用数据库，医疗行业的数据处理成本较其他行业也要高上许多。

由于计算机无法像人类一样进行自然语言的理解和表达，NLP模型需要大量的、被人工标注后的数据提供给模型用于训练。不同于通用领域，医疗NLP的数据标注工作必须由拥有医学背景的专业人士完成。数据的封闭性与医学专业知识的双重壁垒是医疗NLP难以回避的问题。

此外，复杂的现实情况亦是阻拦医疗NLP落地的原因之一。以电子病历的标准化问题为例，张海鹏认为，各医院、科室间书写文本的差异性大大增加了文本信息的抽取难度。“每个医院有每个医院的需求，每个科室也有每个科室的独有要素，神经内科和骨科记录的病例一定各有侧重，对电子病历的模板需求也完全不同，想要做出一个适用于所有医院的通用模板是现阶段不可能实现的任务。但如果无法打通标准模板，NLP模型就不可能拥有足够多的通用数据，也就无法构建出大模型，难以产生ChatGPT一般从量变到质变所带来的应用。”

从这些角度出发，ChatGPT的出现固然让人振奋，但在医疗NLP的实际应用领域中，想结合ChatGPT的通用型NLP模型产生落地应用还有很长的一段路要走。

“主要有四个方面的问题，一是应用场景还不够丰富，仍有很大的挖掘空间；二是没有足够量的数据支持NLP模型发展；三是拥有医学背景的复合型人才太少；四是各医院构建的模型并不通用。”但张海鹏认为，这些亟待解决的问题也意味着医疗领域的NLP发展拥有更多机会。

半个多月前，OpenAI首席执行官Sam Altman在社交媒体发文称,全球人工智能运算量每隔18个月就会翻一番。

新浪微博资深算法专家张俊林预测，未来5到10年，人工智能将会迎来最快速发展的黄金十年。“如果我们站在未来30年的时间节点，当我们回顾这10年时，我们中也许会有人想起下面的诗句：懂得，但为时太晚，他们使太阳在途中悲伤，也并不温和地走进那个良夜。”

文：本刊记者王依依

审核：孔令敏张士国

制作：中小卫3号

本文地址： https://www.528683.com//show-398972.html