庆云古诗词

庆云古诗词

gpt-4对中国人开放吗

互联资讯 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


当地时间3月14日,OpenAI宣布推出GPT-4。图片来源:美国《时代周刊》

当地时间14日,美国OpenAI公司宣布正式发布为ChatGPT提供支持的更强大的下一代人工智能技术GPT-4。就在其发布后的第一天,GPT-4在早期测试和公司演示中就以起草诉讼书、通过标准化考试和根据手绘草图建立工作网站的能力震惊四座。

功能更强大的GPT-4有望打破以前的版本,潜在地改变人们使用互联网工作、娱乐等的方式。但这也可能带来更多有关人工智能工具“抢”走“打工人”的饭碗、学术造假以及改变人类与技术关系等挑战性问题。

分析的不仅是文本

就其核心而言,GPT-4最大的变化是它能够处理用户上传的照片。

到目前为止,最令人瞠目结舌的用例之一是来自OpenAI的一个视频宣传片,该视频演示了如何在几分钟内将一幅图变成一个功能强大的网站。演示者将图片上传到GPT-4,然后将生成的代码粘贴到预览中,这一过程展示了其是如何将图片变成一个正常运行的网站。

OpenAI还展示了GPT-4解释一系列图片中的一个笑话(这张图片中的幽默来自将过时的大型VGA连接器插入小型现代智能手机充电端口的荒谬做法),并描述为什么它很好笑。

在另一项测试中,美国《纽约时报》向GPT-4展示了一张冰箱内部食材的图片,并让GPT-4根据食材“制作”了一道菜。

编码变得更容易

一些GPT-4用户之前几乎没有编码知识,在按照该工具提供的说明逐步操作后,他们使用GPT-4重新创建了Pong、俄罗斯方块或贪吃蛇等经典游戏。

据OpenAI称,GPT-4可用所有主要编程语言编写代码。“GPT-4强大的语言能力将被用于从故事脚本、角色创作到游戏内容创作的所有领域。”高德纳咨询公司的分析师阿伦・钱德拉塞卡兰说,“这可能会在未来催生更多独立的游戏提供商。”

与游戏类似,GPT-4可能会改变人们开发应用程序的方式。一名推特用户几分钟内就做了一个简单的绘图应用程序,而另一名用户编写了一个应用程序,每天推荐5部新电影,还能提供预告片和这些电影的细节。

“编程就像学习开车一样,只要初学者得到一些指导,任何人都可以编程。”全球技术情报公司ABI Research的分析师苏连杰表示,“人工智能可在这方面成为一名好老师”。

考试成绩更优异

尽管OpenAI表示,在许多现实世界的场景中,GPT-4的能力都不如人类,但它在各种专业和学术测试中的表现“可与人类相媲美”。

GPT-4最近通过了一项模拟的法学院律师考试,分数位列考生前10%左右。相比之下,之前的版本GPT-3.5的得分位于垫底的10%。

根据OpenAI的数据,GPT-4在美国法学院入学考试、美国研究生入学资格考试、美国高考和许多美国大学先修课程考试中也表现出色。

提供更准确的响应

据OpenAI公司称,与之前的版本相比,GPT-4能够产生更长、更详细、更可靠的书面答复。

最新版本的词汇量从之前的约4000字增加到现在的25000字,甚至可为最独特的场景提供详细的说明。可以说,没有做不到,只有想不到。其回答的内容从如何清洗食人鱼的鱼缸到提取草莓的DNA,应有尽有。

一位早期使用者说,GPT-4还可根据约会资料中列出的问题,提供关于进一步搭讪的具体建议。

精简各行业的工作

法律服务初创公司DoNotPay的首席执行官乔什・布劳德表示,他的公司已经在致力于使用该工具生成“一键诉讼”来起诉电话骚扰者,这是GPT-4改变人们跨行业工作方式的前兆。可以想象一下,接到一个电话,点击一个按钮,电话就被转录下来,产生了1000字的诉讼书,一旦实现,这将给律师们带来巨大便利。

与此同时,约会网站Keeper的首席执行官杰克・科兹洛斯基表示,他的公司正在使用该工具来更好地匹配用户。

根据苏连杰的说法,人们可能还会看到联网汽车、远程诊断以及其他以前不可能实现的人工智能应用程序的重大进步。

责任编辑:张薇



一张图看懂gpt-4新变化 深度解读gpt4

gpt42,gpt43,gpt49,gpt 4927
韦三水
・北京

作者:机器之心

出处:机器之心编辑部

谁能打败 ChatGPT?它似乎是 OpenAI 本身。

ChatGPT引爆科技领域后,人们一直在讨论AI的“下一步”会是什么。许多学者都提到了多模态。我们没有等太久。今天凌晨,OpenAI发布了多模态预训练大模型GPT-4。

打开网易新闻 查看精彩图片

GPT-4在以下几个方面实现了飞跃:强大的图像识别;文本输入限制已增加到 25,000 个字符;答案的准确性得到了显着提高;可以生成歌词、创意文本和风格变化。

“GPT-4是全球首个高体验、强大的先进人工智能系统,我们希望尽快将其推向大家,”OpenAI工程师在介绍视频中说道。

打开网易新闻 查看精彩图片

看似一口气结束比赛,OpenAI不仅发布了一篇论文(更像是技术报告)System Card,直接将ChatGPT升级为GPT-4版本,还开放了GPT-4的API。

此外,微软的营销总监在 GPT-4 发布后立即表示:“如果你在过去六周内的任何时候使用过新的 Bing 预览版,你就已经提前知道 OpenAI 的最新模型有多么强大。” 是的是的,微软的新 Bing 已经使用 GPT-4。

打开网易新闻 查看精彩图片

接下来,就让我们一起来细细品味这次震撼的发布吧。

GPT-4:我SAT考了710,可以当律师

GPT-4 是一个大型多模式模型,它接受图像和文本输入并输出正确的文本响应。实验表明,GPT-4 在各种专业测试和学术基准测试中的表现与人类相当。例如,它通过了模拟律师考试,并在应试者中取得了前 10% 的成绩;相比之下,GPT-3.5 的得分排在倒数 10%。

OpenAI 花了 6 个月的时间使用对抗性测试程序和从 ChatGPT 中吸取的经验教训迭代调整 GPT-4,从而在真实性、可控性等方面取得了有史以来最好的结果。

在过去的两年里,OpenAI 重建了整个深度学习堆栈,并与 Azure 一起从头开始设计了一台超级计算机来满足其工作负载。一年前,OpenAI 在训练 GPT-3.5 时首次尝试运行超算系统。从那时起,他们发现并修复了一些错误并改进了它的理论基础。这些改进的结果是 GPT-4 训练运行达到了前所未有的稳定性,从而使 OpenAI 能够提前准确预测 GPT-4 训练性能,同时也是第一个实现这一目标的大型模型。OpenAI 表示,他们将继续专注于可靠的扩展,进一步完善方法,以帮助其提前实现更好的预测性能和规划未来的能力,这对安全至关重要。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型以及大多数 SOTA 模型。

许多现有的机器学习基准测试都是用英文编写的。为了初步了解 GPT-4 在其他语言中的功能,研究团队使用 Azure Translate 将 MMLU 基准(一组涵盖 57 个主题的 14,000 个多项选择题)翻译成多种语言。在测试的 26 种语言中,GPT-4 在英语语言性能方面优于 GPT-3.5 和其他大型语言模型(Chinchilla、PaLM)。

打开网易新闻 查看精彩图片

和很多使用ChatGPT的公司一样,OpenAI表示他们内部也在使用GPT-4,因此OpenAI也在关注大型语言模型在内容生成、销售和编程方面的应用效果。OpenAI 还使用 GPT-4 来帮助人们评估 AI 输出,这是 OpenAI 战略的第二阶段。OpenAI 既是 GPT-4 的开发者也是用户。

OpenAI 正在通过 ChatGPT 和 API(等待列表)发布 GPT-4 的文本输入功能。对于图像输入功能,OpenAI 正在与其他公司合作以实现更广泛的可用性。

打开网易新闻 查看精彩图片

OpenAI 今天还开源了 OpenAI Evals,这是一个自动评估 AI 模型性能的框架。OpenAI 表示,此举是为了让大家能够指出其模型中的不足,帮助 OpenAI 进一步完善模型。

有趣的是,GPT-3.5 和 GPT-4 之间的区别很微妙。当任务的复杂性达到足够的阈值时,差异就会出现――GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细粒度的指令。为了了解这两种模型之间的区别,OpenAI 在各种基准测试和一些为人类设计的模拟考试中进行了实验。

GPT-4:我能玩梗图

GPT-4 可以接受文本和图像形式的 prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。

具体来说,它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域 ―― 包括带有文本和照片的文档、图表或屏幕截图上 ――GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链 prompt。

比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很可笑?

打开网易新闻 查看精彩图片

GPT-4 回答道,VGA 线充 chatgpt。

打开网易新闻 查看精彩图片

格鲁吉亚和西亚的人均每日肉类消费,算平均数:

打开网易新闻 查看精彩图片

看起来,现在的 GPT 已经不会在计算上胡言乱语了:

打开网易新闻 查看精彩图片

还是太简单,那直接让它做题,还是个物理题:

打开网易新闻 查看精彩图片

GPT-4 看懂了法语题目,并完整解答:

打开网易新闻 查看精彩图片

GPT-4 可以理解一张照片里「有什么不对劲的地方」:

打开网易新闻 查看精彩图片

GPT-4 还可以量子速读看论文,如果你给它 InstructGPT 的论文,让它总结摘要,就会变成这样:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

如果你对论文里的某一个图感兴趣呢?GPT-4 也可以解释一下:

打开网易新闻 查看精彩图片

接着来,问 GPT-4 梗图是什么意思:

打开网易新闻 查看精彩图片

它给出了详细的回答:

打开网易新闻 查看精彩图片

那么漫画呢?

打开网易新闻 查看精彩图片

让 GPT-4 解释为什么要给神经网络加层数,似乎有一点加倍的幽默感。

打开网易新闻 查看精彩图片

不过 OpenAI 在这里说了,图像输入是研究预览,仍不公开。

研究人员用学术的 Benchmark 视角来解读 GPT-4 的看图能力,然而这已经不够了,他们还能不断发现该模型可以令人兴奋地处理新任务 ―― 现在的矛盾是 AI 的能力和人类想象力之间的矛盾。

打开网易新闻 查看精彩图片

看到这里,应该有研究人员感叹:CV 不存在了。

可控性

与固定冗长、平静的语气和风格的经典 ChatGPT 个性不同,开发人员(和 ChatGPT 用户)现在可以通过在“系统”消息中描述这些方向来决定他们的 AI 的风格和任务。

系统消息允许API用户在一定范围内自定义,实现不同的用户体验。OpenAI 知道您在 Cosplay ChatGPT 并鼓励您这样做。

打开网易新闻 查看精彩图片

局限性

尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。

目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。

总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

打开网易新闻 查看精彩图片

GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。

打开网易新闻 查看精彩图片

实验结果表明,GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4 的测试示例 ―― 并不是所有时候它都能做出正确的选择。

打开网易新闻 查看精彩图片

该模型的输出可能存在各种偏差,OpenAI 在这些领域取得了进展,其目标是构建具有合理默认行为的 AI 系统,以反映广泛的用户价值。

GPT-4 通常不了解其绝大部分数据(2021 年 9 月)截止后发生的事件,也不从其经验中吸取教训。它有时会犯一些简单的推理错误,这些错误似乎与这么多领域的能力不匹配,或者在用户明显的错误陈述中过于容易上当受骗。它有时也会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。

GPT-4在预测的时候也有可能是错的,但是它很有信心,意识到可能错了也不会去复查。有趣的是,底层的预训练模型是经过高度校准的(它对答案的预测置信度通常与正确概率相匹配)。但是,通过 OpenAI 当前的训练后过程减少了校准。

打开网易新闻 查看精彩图片

风险和缓解措施

OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,以使其从训练开始就更加安全和一致,工作包括预训练数据选择和过滤、评估和专家参与、模型安全改进以及监控和执行。

GPT-4 具有与之前模型类似的风险,例如生成有害建议、错误代码或不准确信息。同时,GPT-4 的附加功能引入了新的风险面。为了了解这些风险的程度,该团队聘请了 50 多位 AI 相关风险、网络安全、生物风险、信任与安全以及国际安全方面的专家,对模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,这些专家的反馈和数据可以为缓解措施和模型改进提供信息。

原文链接:https://mp.weixin.qq.com/s/chatgptxw

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

关注备用号,以防又失联

历史隐蔽的未来

每一个最后的睡姿

都是一首提前为自己祭悼的

长长的诗

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。