openai发布gpt4 open ai升级gpt4
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
OpenAI的联合创始人Greg Brockman和首席科学家Ilya 【【淘密令】】评价GPT-4的性能,并对安全问题和开源的争议进行解释。
毫无疑问,GPT-4一经发布,就引爆了整个业界和学界。
凭借着自己强大的推理和多模态能力,引发了一众热议。
然鹅,GPT-4不是一个open的模型。
虽然OpenAI分享了大量GPT-4的基准和测试结果,但是基本上没有提供用于训练的数据、成本、或者用于创建模型的方法。
当然了,这样的「独家秘笈」OpenAI肯定不会公布了。
马库斯直接拿出当初OpenAI的初衷,发文嘲讽了一波。
网友改进了一个版本。
人无完人,GPT-4也是
当OpenAI的总裁、联合创始人之一Greg Brockman将GPT-4和GPT-3进行比较时,他说了一个词――不同。
「它只是不同而已,模型仍然有很多问题和错误......但你真的可以看到它在微积分或法律等方面的技能提升。在某些领域,它从表现非常糟糕进化到现在足以匹敌人类。」
GPT-4的测试结果很不错:在AP微积分BC考试中,GPT-4得了4分,而GPT-3得了1分。在模拟的律师考试中,GPT-4以大约前10%考生的分数通过;GPT-3.5的分数徘徊在后10%。
在上下文能力,也就是说在生成文本之前可以记忆的文本方面,GPT-4大约能够记住50页左右的内容,是GPT-3的8倍。
在提示方面,GPT-3和GPT-3.5只能接受文字提示:「写一篇关于长颈鹿的文章」,而多模态的GPT-4可以接受图片和文字的提示:给出一张长颈鹿的图片,提示问「这里有多少只长颈鹿?」 这些GPT-4都能答对,而且它的读梗能力也很强!
我们之前错了,开源并不明智
而强到离谱的GPT-4一发布,便引起了大量研究人员和专家的兴趣。但令人失望的是,OpenAI发布的GPT-4,不是「【【微信】】模型。」
尽管OpenAI分享了大量GPT-4的基准、测试结果和有趣的演示,但基本上没有提供用于训练该系统的数据、能源成本或用于创建它的具体硬件或方法的相关信息。
之前Meta的LLaMa模型泄露的时候,就引发过一波关于开源的讨论。不过,这次大家对于GPT-4封闭模型的最初反应是大部分都是负面的。
人工智能社区普遍认为,这不仅破坏了OpenAI作为研究机构的创始精神,而且让其他人难以制定保障措施来应对威胁。
Nomic AI的信息设计副总裁Ben Schmidt表示,由于无法看到GPT-4是在什么数据上训练的,大家很难知道该系统在什么地方是安全使用的,并提出修复方案。
「为了让人们知道这个模型什么地方不起作用,OpenAI需要更好地了解GPT-4所做的事情以及其中的假设。我可不会在下雪的时候,相信一个没有在雪地气候情况下训练出来的自动驾驶汽车。因为很可能,漏洞和问题只在真实使用的时候才会浮现。」
对此,OpenAI的首席科学家兼联合创始人Ilya 【【淘密令】】解释称:OpenAI不分享更多关于GPT-4的信息是因为害怕竞争,也是因为对安全的担忧,这一点是毋庸置疑的。
「外面的竞争很激烈,GPT-4的开发并不容易。几乎所有的OpenAI的员工在一起工作了很长时间才生产出这个东西。从竞争的角度来看,有很多很多公司都想做同样的事情,而GPT-4像是一个成熟的果实。」
众所周知,OpenAI在2015年成立之初是一个非营利组织。其创始人包括【【淘密令】】、现任首席执行官Sam Altman、总裁Greg Brockman以及现已离开OpenAI的马斯克。
【【淘密令】】等人曾表示,该组织的目标是为每个人创造价值,而不是单单为股东创造价值,并表示将与该领域的各方进行「自由合作」。
然而,为了获得数十亿美元的投资(主要来自微软),OpenAI还是被加盖了一层商业属性。
不过,当被问及为什么OpenAI改变了分享其研究的方法时,【【淘密令】】简单地回答道:
「我们错了。在某个时候,AI/AGI将变得极其强大,那时,开源就是没有意义的。可以预料的是,在几年内,每个人都会完全明白,开源人工智能是不明智的。因为这个模型是非常有力的。如果有人想,用它就能够造成巨大的伤害,这将是相当容易的。所以随着模型的能力越来越高,不想披露它们是有道理的。」
Lightning AI的首席执行官和开源工具PyTorch Lightning的创建者William Falcon从商业角度解读称:「作为一家公司,你完全有权利这样做。」
安全风险
与此同时,Brockman也认为GPT-4的应用推广应当是缓慢推进的,因为OpenAI正在评估风险和利益。
「我们需要解决一些政策问题,如面部识别和如何对待人的图像,我们需要弄清楚,危险区在哪里,红线在哪里,然后慢慢澄清这些点。」
还有就是老生常谈的,GPT-4被用来干坏事的风险。
以色列网络安全初创公司Ad【【微信】】发表了一篇博文,展示了绕过OpenAI的内容过滤器,让GPT-4生成钓鱼邮件、生成对同性恋者的性描述等让人高度反感的文本的方法。
因此,很多人都希望GPT-4在审核方面带来重大改进。
针对这一点,Brockman强调,他们花了很多时间试图了解GPT-4的能力,而该模型已经经历了六个月的安全培训。在内部测试中,对于OpenAI的使用政策所不允许的内容,GPT-4作出反应的可能性比GPT-3.5低82%,产生「事实性」反应的可能性高40%。
不过,Brockman并不否认GPT-4在这方面的不足。但他强调了该模型的新的缓和导向工具,称为「系统信息」的API级能力。
系统信息本质上是为GPT-4的互动设定基调,并建立界限的指令。这样,以系统信息作为护栏,就可以防止GPT-4偏离方向。
例如,一条系统信息的人设可能是这样的:「你是一个总是以苏格拉底方式回答问题的导师。你从不给学生答案,而是总是试图提出正确的问题,帮助他们学会自己思考。」
新的道路
其实,从一定程度上,【【淘密令】】也认同批评者的观点:「如果更多的人愿意研究这些模型,我们会对它们有更多的了解,这将是好事。」
所以OpenAI出于这些原因,向某些学术和研究机构提供了访问其系统的机会。
而且Brockman还提到了Evals,这是OpenAI新近开源的软件框架,用于评估其人工智能模型的性能。
Evals采用的是模型测试众包的方式,让用户开发和运行评估GPT-4等模型的基准,同时检查其性能,这也是OpenAI致力于「健全」模型的标志之一。
「通过Evals,我们可以看到用户关心的用例,能够以一种系统的形式进行测试。我们开源的部分原因是,我们正在从每三个月发布一个新模型转向不断改进新模型。当我们制作新的模型版本时,我们至少可以通过开源知道这些变化是什么。」
其实,关于共享研究的讨论一直颇为火热。一方面,谷歌和微软这样的科技巨头正急于将人工智能功能添加到他们的产品中,往往会将以前的道德问题搁置一边,微软最近就解雇了一个团队,该团队是专门确保人工智能产品遵循道德准则的);另一方面;技术的迅速改善引发了人们对人工智能的担忧。
英国人工智能政策负责人 Jess Whittlestone 说,平衡这些不同的压力带来了严重的治理挑战,这意味着我们可能需要第三方监管机构参与。
「OpenAI 不分享关于 GPT-4 的更多细节的出发点是好的,但也可能导致人工智能世界的权力集中化。这些决定不应该由个别公司来做。」
Whittlestone 说:「理想的情况是,我们需要把这里的做法编纂成册,然后让独立的第三方去审查与某些模型相关的风险。」
以上就是GPT-4强到离谱,OpenAI拒绝Open!首席科学家:开源并不明智,我们之前错了的详细内容,更多请关注php中文网其它相关文章!
声明:本文转载于:51cto,如有侵犯,请联系【【邮箱】】删除
- 上一篇:Siri太笨,根本打不过ChatGPT!苹果加急测试语言生成AI
- 下一篇:下一代人工智能将在医疗保健领域开辟新天地
openai首席科学家透露gpt4技术原理 openai推出gpt-4实测
首席科学家 pi,sgi首席科学家,dfinity首席科学家,cde首席科学家不可解释的智能,未来该如何发展?
2023年至今,ChatGPT和GPT-4始终霸占在热搜榜上,一方面外行人都在惊叹于AI怎么突然如此强大,会不会革了「打工人」的命;另一方面,其实内行人也不明白,为什么模型规模在突破某一界限后,突然就「涌现」出了惊人的智能。
出现智能是好事,但模型不可控、不可预测、不可解释的行为,却让整个学术界陷入了迷茫与深思。
突然变强的超大模型
先出一道简单的题目,下面这几个emoj代表了什么电影?
最简单的语言模型往往只能续写出「The mo【【微信】】 who is a man who is a man」;中等复杂度模型的答案则更接近,给出的答案是「The Emoji Movie」;但最复杂的语言模型只会给出一个答案:海底总动员「Finding Nemo」
实际上这个prompt也是为测试各种大型语言模型能力而设计的204项任务之一。
Google Research的计算机科学家Ethan Dyer参与组织了这次测试,他表示,虽然构建BIG-Bench数据集的时候我已经准备好了迎接惊喜,但当真的见证这些模型能做到的时候,还是感到非常惊讶。
惊讶之处在于,这些模型只需要一个提示符:即接受一串文本作为输入,并且纯粹基于统计数据一遍又一遍地预测接下来是什么内容。
计算机科学家曾预计,扩大规模可以提高已知任务的性能,但他们没有预料到模型会突然能够处理这么多新的、不可预测的任务。
Dyer最近参与的一项调研结果显示,LLM 可以产生数百种「涌现」(emergent)能力,即大型模型可以完成的任务,小型模型无法完成,其中许多任务似乎与分析文本无关,比如从乘法计算到生成可执行的计算机代码,还包括基于Emoji符号的电影解码等。
新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,超过这个阈值,模型的功能就会突飞猛进。
研究人员也提出了涌现能力的另一个负面影响:随着复杂性的增加,一些模型在回答中显示出新的偏见(biases)和不准确性。
斯坦福大学的计算机科学家 Rishi Bommasani 表示,我所知道的任何文献中都没有讨论过语言模型可以做这些事情。
去年,Bommasani 参与编制了一份包含几十种涌现行为的清单,其中包括在Dyer的项目中发现的几种行为,并且这个名单还在继续变长。
论文链接:https://openreview.net/pdf?id=【【微信】】
目前研究人员不仅在竞相发现更多的涌现能力,而且还在努力找出它们发生的原因和方式,本质上是试图对不可预测性进行预测。
理解涌现可以揭示围绕人工智能和一般机器学习的深层次问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是在统计方面变得非常擅长,它还可以帮助研究人员利用潜在的优势和减少涌现风险。
人工智能初创公司 Anthroic 的计算机科学家Deep Ganguli表示,我们不知道如何判断哪种应用程序的危害能力将会出现,无论是正常出现的还是不可预测的。
涌现的涌现(The Emergence of Emergence)
生物学家、物理学家、生态学家和其他科学家使用「涌现」一词来描述当一大群事物作为一个整体时出现的自组织、集体行为。
比如无生命的原子组合产生活细胞; 水分子产生波浪; 椋鸟的低语以变化但可识别的模式在天空中飞翔; 细胞使肌肉运动和心脏跳动。
重要的是,涌现能力在涉及大量独立部分的系统中都有出现,但是研究人员直到最近才能够在 LLM 中发现这些能力,或许是因为这些模型已经发展到了足够大的规模。
语言模型已经存在了几十年,但直到五年前最强大的武器还是基于循环神经网络(RNN),训练方法就是输入一串文本并预测下一个单词是什么;之所以叫循环(recurrent),是因为模型从自己的输出中进行学习,即把模型的预测反馈到网络中,以改善性能。
2017年,谷歌大脑的研究人员引入了一种名为Transformer的全新架构,相比循环网络逐字分析一个句子,Transformer可以同时处理所有的单词,也就意味着Transformer可以并行处理大量文本。
通过增加模型中的参数数量以及其他因素,Transformer使语言模型的复杂性得以快速扩展,其中参数可以被认为是单词之间的连接,模型通过在训练期间调整这些连接的权重以改善预测结果。
模型中的参数越多,建立联系的能力就越强,模拟人类语言的能力也就越强。
正如预期的那样,OpenAI 研究人员在2020年进行的一项分析发现,随着模型规模的扩大,它们的准确性和能力都有所提高。
论文链接:【【网址】】/pdf/2001.08361.pdf
随着 GPT-3(拥有1750亿参数)和谷歌的 PaLM (可扩展至5400亿参数)等模型的发布,用户发现了越来越多的涌现能力。
一位 DeepMind 的工程师甚至报告说,他可以让 ChatGPT 认为自己是一个 Linux 终端,并运行一些简单的数学代码来计算前10个素数。值得注意的是,ChatGPT可以比在真正的 Linux 机器上运行相同的代码更快地完成任务。
与电影Emoji符号任务一样,研究人员没有理由认为一个用于预测文本的语言模型可以模仿计算机终端,许多涌现行为都展现了语言模型的Zero-shot或Few-shot学习能力,即LLM可以解决以前从未见过或很少见过的问题的能力。
大批研究人员发现了 LLM 可以超越训练数据约束的迹象,他们正在努力更好地掌握涌现的样子以及它是如何发生的,第一步就是完全地记录下来。
超越模仿游戏
2020年,Dyer 和Google Research的其他人预测,LLM 将产生变革性影响,但这些影响具体是什么仍然是一个悬而未决的问题。
因此,他们要求各个研究团队提供困难且多样化任务的例子以找到语言模型的能力边界,这项工作也被称为「超越模仿游戏的基准」(BIG-bench,Beyond the Imitation Game Benchmark)项目,名字来源于阿兰 ・ 图灵提出的「模仿游戏」,即测试计算机是否能以令人信服的人性化方式回答问题,也叫做图灵测试。
正如所预料的那样,在某些任务上,随着复杂性的增加,模型的性能平稳且可预测地得到改善;而在其他任务中,扩大参数的数量并没有产生任何改善。
但是,在大约5% 的任务中,研究人员发现了所谓的「突破」(breakthroughs),即在一定阈值范围内,性能出现了快速、戏剧性的跃升,该阈值随任务和模型的不同而变化。
例如,参数相对较少(只有几百万)的模型不能成功地完成三位数加法或两位数乘法的问题,但对于数百亿个参数,某些模型的精度会大幅提高。
其他任务也出现了类似的跳跃,包括解码国际音标、解读单词的字母、识别印度英语(印地语和英语的结合)段落中的冒犯性内容,以及生成类似于斯瓦希里谚语的英语对等词。
但是研究人员很快意识到模型的复杂性并不是唯一的驱动因素,如果数据质量足够高,一些意想不到的能力可以从参数较少的较小模型中获得,或者在较小的数据集上训练,此外query的措辞也会影响模型回复的准确性。
去年,在该领域的旗舰会议 NeurIPS 上发表的一篇论文中,【【微信】】的研究人员展示了如何让模型利用提示对自己进行解释(思维链推理),比如如何正确地解决math word问题,而同样的模型如果没有提示就不能正确地解决。
论文链接:【【网址】】/【【淘密令】】/2022/ScheduleMultitrack?event=54087
【【微信】】的科学家Yi Tay致力于系统研究breakthroughs,他指出,最近的研究表明,思维链的提示改变了模型的规模曲线,也改变了涌现的点,使用思维链式提示可以引发 BIG 实验中没有发现的涌现行为。
布朗大学研究语言计算模型的计算机科学家Ellie Pavlick认为,最近的这些发现至少提出了两种可能性:
第一个是,正如与生物系统相比较所显示的那样,较大的模型确实会自发地获得新的能力,这很可能是因为这个模型从根本上学到了一些新的和不同的东西,而这些东西在小尺寸模型中没有的,而这正是我们所希望的情况,当模型扩大规模时,会发生一些根本性的转变。
另一种不那么耸人听闻的可能性是,看似突破性的事件可能是一个内部的、由统计数据驱动的、通过思维链式推理运作的过程,大型 LLM 可能只是学习启发式算法,对于那些参数较少或者数据质量较低的参数来说,启发式算法是无法实现的。
但是她认为,找出这些解释中哪一个更有可能依赖于能够理解 LLM 是如何运行的,因为我们不知道它们在引擎盖下是如何工作的,所以我们不能说这些猜测中哪些更合理。
隐藏在未知力量下的陷阱
谷歌在二月份发布了类ChatGPT产品Bard,不过在演示中却暴露出了一个事实性错误,这也带来了一个启示,虽然越来越多的研究人员开始依赖这些语言模型来做基本的工作,但是并不能相信这些模型的输出结果,需要人来进一步检查他们的工作。
涌现导致了不可预测性,而不可预测性也随规模的扩大而增加,使研究人员难以预测广泛使用的后果。
想要研究涌现现象,那你必须先在头脑中有一个案例,在研究规模的影响之前,你无法知道可能会出现什么能力或局限性。
某些有害行为也会在某些模型中涌现,最近对 LLM 的分析结果表明,社会偏见的涌现往往伴随着大量的参数,也就是说大型模型会突然变得更有偏见,如果不能解决这一风险,就可能危及这些模型的研究对象。
以上就是GPT-4太强,OpenAI也不懂!智能到底是怎么突然「涌现」的?的详细内容,更多请关注php中文网其它相关文章!
声明:本文转载于:51cto,如有侵犯,请联系【【邮箱】】删除
- 上一篇:人工智能和机器学习如何改变建筑行业
- 下一篇:外媒如何看待百度文心一言?褒贬不一,长期看好中国AI发展