庆云古诗词

庆云古诗词

openai ceo谈gpt

互联资讯 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


  【CSDN 编者按】chatgpt 总裁格雷格?布罗克曼:GPT-4 并不完美但绝对与众不同。

  原文链接:【【网址】】/2023/03/15/interchatgptockman-gpt-4-isnt-perfect-but-neither-are-you/

  整理 |?王子

  出品 | CSDN(ID:CSDNnews)

  3月15日,继 ChatGPT 展现了惊人的实力之后,chatgpt 又扔下了一颗核弹:备受期待的史上最强人工智能大模型 GPT-4 发布了。

  据 TechCrunch 消息,chatgpt 联合创始人兼总裁格雷格?布罗克曼在接受记者凯尔・威格斯采访时表示,GPT-4 并不完美但绝对与众不同,并且他还在采访中透露,chatgpt 正在测试 GPT-4 高级版本,是普通 GPT-4 储存内容能力的 5 倍。本文对这篇采访进行了编译,以飨读者。

  关键改进:多模态能力

  GPT-4 在其前身 GPT-3 的基础上,对很多方面做了关键性的改进。例如提供了更多真实的声明,并允许开发者更容易设计其风格和行为。同时,GPT-4 也是多模态的,它可以可以接受图像作为输入并生成标题、分类和分析。

  但 GPT-4 也有局限性。和 GPT-3 一样,该模型对事实产生了 "幻觉",并出现了基本的推理错误。chatgpt 在自己的博客上举了个例子, GPT-4 将“猫王”埃尔维斯?普雷斯利(Elchatgpt)描述为 "一个演员的儿子",但事实是他的父母都不是演员。

  当被问及如何比较 GPT-4 和 GPT-3 时,格雷格?布罗克曼说了一个词:与众不同。他解释到:“尽管 GPT-4 还存在很多问题和错误,但绝对与众不同,你可以看到其在微积分或法律等技能方面的提升。虽然它曾在某些领域表现很糟糕,但现在已经达到超越常人的水准。”

  测试结果验证了格雷格?布罗克曼的观点。在高考微积分考试中,GPT-4 得了 4 分, GPT-3 得了 1 分,而介于 GPT-3 和 GPT-4 之间的中间模型 GPT-3.5,得了 4 分。

  在分析 GPT-4 的能力时,chatgpt 还让该模型参加了统一律师考试、法学院入学考试(LSAT)、研究生入学考试(GRE)的定量、口头推理、分析写作考试以及和各种 AP 科目考试等测试。结果显示,GPT-4 在大多数这些专业和学术考试中表现与人类水平相当。这意味着,如果 GPT-4 是一个仅凭应试能力来判断的人,它可以进入法学院,而且很可能也能进入许多大学。

  不仅如此,GPT-4 更受人关注的是上面提到的多模态。GPT-3 和 GPT-3.5 只能接受文本提示(例如 "写一篇关于长颈鹿的文章"),而 GPT-4 可以同时接受图片和文本的提示来完成一些动作(例如识别在塞伦盖蒂拍摄的长颈鹿图像,并给出基本的内容描述。)

  这是因为 GPT-4 是在图像和文本数据上训练的,而它的前身只在文本上训练。chatgpt 说,训练数据来自 "各种合法授权的、公开可用的数据源,其中可能包括公开可用的个人信息",但当被问具体细节时,格雷格?布罗克曼避而不谈。(训练数据曾使 chatgpt 陷入法律纠纷)。

  超强优势:图像理解能力

  GPT-4 有超强的图像理解能力。例如,输入提示“这张图片有什么好笑的?GPT-4 会将整张图片分解,并正确地解释了这个笑话的笑点。

  目前,只有一个合作伙伴可以使用 GPT-4 的图像分析功能,一个名为 Be My Eyes 的视力障碍者的辅助应用程序。布罗克曼说,在 chatgpt 评估风险和利弊的过程中,无论何时,更广泛的推广都将是“缓慢而有意的”。他还认为,"有一些政策问题我们需要解决,如面部识别和如何对待人的图像。我们需要弄清楚危险区在哪里,红线在哪里,再随着时间的推移找到答案。"

  chatgpt 在其文本到图像转换系统 Dall-E 2 上也遇到了类似伦理困境。在最初禁用该功能后,chatgpt 允许客户上传人脸,用 AI 驱动的图像生成系统对其进行编辑。当时,chatgpt 声称,其安全系统的升级使面部编辑功能成为可能,因为它将深度造假以及试图创建性、政治和暴力内容的潜在危害降到最低。

  另一个长期问题是防止 GPT-4 在无意中被用于可能造成伤害的方式使用。在该模型发布几小时后,以色列网络安全初创公司 Adchatgpt 发布了一篇博客,演示了绕过 chatgpt 的内容过滤器并让 GPT-4 生成钓鱼电子邮件、对同性恋者的攻击性描述以及其他令人反感文本的方法。

  在语言模型领域,这并不罕见。Facebook 母公司 Meta 的聊天机器人 BlenderBot 和 chatgpt 的 ChatGPT 也曾被诱惑输出不恰当的内容,甚至透露了其内部工作的敏感细节。但包括记者在内的许多人都希望,GPT-4 可能会在这方面带来重大改进。

  当被问及 GPT-4 的稳健性时,布罗克曼强调,该模型已经通过六个月的安全培训。在内部测试中,与 GPT-3.5 相比,它对 chatgpt 的使用政策不允许的内容请求的回应率降低了 82%,对 "事实 "的回应率提高了 40% 。

  布罗克曼说:"我们花了很多时间试图了解 GPT-4 的能力,我们不断地进行更新,包括不断改进,这样模型就更有扩展性,以达到人们希望它拥有的任何个性或模式。"

  不足之处

  坦率地说,早期的现实测试结果并不是那么让人满意。除了 Adchatgpt 测试之外,微软的聊天机器人 Bing Chat 也被证明非常容易受到越狱影响。使用精心设计的输入,用户能够让该聊天机器人表达爱意,发出威胁伤害,为大屠杀辩护和编造阴谋论。

  布罗克曼并不否认 GPT-4 在这方面的不足,但他强调了该模型的缓解性转向工具,包括被称为“系统”消息的 API 级功能。系统消息本质上是为 GPT-4 的交互设定基调并建立界限的指令。例如,一条系统消息可能是这样写的:“你是一位总是以苏格拉底风格回答问题的导师。你永远不会给学生答案,而是总是试着提出正确的问题,帮助他们学会独立思考。”

  我们的想法是,系统消息充当护栏,防止 GPT-4 偏离轨道。布罗克曼说:“真正弄清楚 GPT-4 的语气、风格和本质一直是我们关注的焦点。我认为我们开始更多地了解如何进行工程设计,了解如何拥有一个可重复的过程,让你得到对人们真正有用的可预测结果。”

  布罗克曼还提到了 Evals,这是 chatgpt 最新的开源软件框架,用于评估其 AI 模型的性能,这是 chatgpt 致力于“增强”其模型的一个标志。Evals 允许用户开发和运行评估 GPT-4 等模型 的基准测试,同时检查其性能,这是一种众包的模型测试方法。

  布罗克曼说:“通过 Evals,我们可以更好地看到用户关心的用例,并可以对其进行测试。我们之所以开源这个框架原因之一是我们不再每隔三个月发布一个新模型以不断改进。你不会制造你不能测量的东西,对吧?当我们推出新版模型,我们至少可以知道发生了哪些变化。”

  布罗克曼还被问道,chatgpt 是否会补偿人们用 Evals 测试其模型?他不肯承诺,但他确实指出,在有限的时间内,chatgpt 允许选定的 Eevals 用户提前访问 GPT-4 API。

  关于未来:GPT-4 的另一个版本

  布罗克曼的谈话还谈到了 GPT-4 的上下文窗口,指的是模型在生成其他文本之前可以考虑的文本。chatgpt 正在测试 GPT-4 的另一个版本,它可以 "记住 "大约 50 页的内容,是普通的 GPT-4 所能容纳内容的 5 倍,是 GPT-3 的八倍。

  布罗克曼认为,扩大的上下文窗口会带来新的、以前没有探索过的应用,特别是在企业中。他设想了一个为公司打造的 AI 聊天机器人,利用来自不同来源的各部门的员工的背景和知识,以一种非常明智但具有对话性的方式回答问题。

  这不是一个新概念。但布罗克曼提出的理由是,GPT-4 的答案将比今天的聊天机器人和搜索引擎的答案有用得多。他说:“以前,模型根本不知道你是谁,你对什么感兴趣等。而有了更大的上下文窗口肯定会让它的能力变强,从而更好的为人们提供服务支持。”


openai ceo将首次赴国会作证 openai首席科学家解读gpt4

openai.chatGPT官网,openai api key获取,openai公司,openai api收费标准

OpenAI 的聊天机器人 ChatGPT 在过去数月间,用近乎于人类的表现在科技圈掀起了一阵人工智能浪潮,大洋两岸的无数人更是为之倾倒。然而就在大家沉迷于 ChatGPT 时,北京时间 3 月 15 日凌晨,OpenAI 方面在预热许久后带来了新一代的多模态大模型 GPT-4,为 ChatGPT 的热潮又添了一把火。

在 OpenAI 官网公布的 GPT-4 技术文档中,前言部分是这样形容它的," 我们已经创建了 GPT-4,这是 OpenAI 扩大深度学习努力的最新里程碑。GPT-4 是一个多模态大模型(接受图像和文本输入,文本输出),虽然它在许多现实世界的场景中不如人类,但在各种专业和学术基准上表现出人类水平的性能。"

咋一看,GPT-4 似乎并没有那么强大。相比于上一代的 GPT-3,GPT-4 的升级主要在于识图能力,文字输入的限制则提升至 2.5 万字,回答准确性也显著提高,能够生成歌词、创意文本,并实现风格的变化。只不过在技术文档中,OpenAI 展示了一个无限接近人类的 AI 系统。

GPT-4 到底有多么智能,OpenAI 为了向外界解释了这个问题,并没有扯太多的专业术语、也没有 " 不服跑个分 ",而是用了绝大多数人都亲身经历过的考试。在被称为 " 美国高考 " 的 SAT 考试中,GPT-4 在满分 1600 分的测试中拿到了 1410 分,而在美国律师资格考试 Uniform Bar Exam 和法学院入学考试 LSAT 中,得分则更是高于 88% 的应试者。

GPT-4 的做题能力到底有多强呢?在面对一道巴黎综合理工学院的物理题时,GPT-4 按照非常标准的分步解题步骤,拆解了整个问题,最终一步步推导出结果。如果抛开速度的差异,GPT-4 真的就像大学生一样在做试题,实现了类似人类的视觉感知到语义理解,再到逻辑推理的一整套流程。

如果说 OpenAI 举例的这一系列考试对于国内用户太远,那么 GPT-4 相比于基于 GPT-3.5 的 ChatGPT 还有一个质的飞跃,那就是可以处理图像了,也就是说它能够理解图片的内容。比如说在 OpenAI 方面公布的 DEMO 中,GPT-4 不仅可以解释图片中的笑话、能写出符合格律的诗作,更可以根据草稿纸上的一张草图,仅 10 秒就将草图变成与之相对应的网站。

不仅如此,GPT-4 还能完成复杂的报税工作,并附带完整的计算过程和条款解释,还有网友用 GPT-4 针对骚扰电话写律师函,甚至用 GPT-4 直接生成一个简单的游戏。

其中从这里就不难看出 OpenAI 的野心,那就是 GPT-4 不仅仅是一个简单的聊天机器人,而是能在真正的生产力场景中用 AI 为人类赋能。

用英伟达 AI 科学家 Jim Fan 的说法,"GPT-4 可以全靠自己考进斯坦福了 "。图灵奖得主、" 深度学习之父 "Geoffrey Hinton 也对 GPT-4 赞叹不已,并表示," 毛虫吸取了营养之后,就会化茧为蝶。而人类提取了数十亿个理解的宝藏,GPT-4 就是人类的蝴蝶。"

尽管 GPT-4 的表现足够惊艳,但它依然没能摆脱 " 满嘴跑火车 " 这一现象。 在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比 ChatGPT 此前使用的 GPT-3.5 高出 40%,但 GPT-4 一样也会出现编造事实的情况,也就是会一本正经的胡说八道,比如给出完全不存在的网址。

OpenAI 方面对此也毫不避讳,"GPT-4 仍有许多已知的局限性,我们正在努力解决,比如社会偏见、幻觉和对抗性提示。"

并且值得一提的是,在可控性方面,GPT-4 则有了长足的进步。此前在应用了 ChatGPT 相关技术的新版 Bing 上,出现了在部分情况下会侮辱用户、撒谎等行为,甚至还会故意撒谎、侮辱用户或是情绪化操纵人类,以至于微软方面不得不限制用户每天的对话次数。按照 OpenAI 方面的说法,GPT-4 的训练在去年 8 月、也就是 ChatGPT 上线之前就已经完成,这半年的时间都用来对 AI 模型多个方面特征的控制。

OpenAI 在技术文档中解释到,GPT-4 在 RLHF(基于人类反馈的强化学习)训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求,来减少有害的输出。并透露," 与 GPT-3.5 相比,它对不允许内容的请求做出回应的可能性低了 82%。"

至于说 GPT-4 是否会冲击到现有的人类工作,答案是未来或许确实有这种可能性,但现在还不至于会让一部分人失业。毕竟,成本制约了 GPT-4 的发挥。来自 OpenAI 的价目表显示,GPT-4 的 API 价格为 0.02 美元 /1000token(约 750 英文单词或 500 汉字),而已经被用户吐槽很贵的 ChatGPT-turbo 则还要便宜十倍。

当然,相信绝大多数吃瓜群众最关心的话题,是我们现在能用上 GPT-4 吗?答案是可以的、但有代价,现在 OpenAI 仅向花费 20 美元订阅了 ChatGPT Plus 版本的用户提供 GPT-4。但除了直接给 OpenAI 付钱外,有能力的用户还可以选择打工的方式去 GitHub - openai/evals 参与测试,提交高质量反馈来获得访问权限。

但如果既不想花钱、又不愿花时间,那么使用微软的新版 Bing 就是最简单的方式了。没错,微软已经发布新版 Bing 就已经就用上了 GPT-4,要不当时微软的说法为什么是 " 基于类 ChatGPT 技术 ",

【本文图片来自网络】