庆云古诗词

庆云古诗词

open ai gpt-4技术报告

互联资讯 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


本文由「AI医学」公众号提供

医海无涯,AI同舟。关注我们,助力高效科研。

今天凌晨 1 点,chatgpt 团队发推正式宣布:GPT-4 来了!

发布要点

・ GPT-4可以接受图像和文本输入,而GPT-3.5只接受文本。

・ GPT-4在各种专业和学术基准上的表现达到"人类水平"。例如,它通过了模拟的律师考试,分数约为应试者的前10%。

・ chatgpt花了6个月的时间,利用从对抗性测试项目以及ChatGPT中获得的经验,反复调整GPT-4,结果在事实性、可引导性和可控制方面取得了 "史上最佳结果"。

・ 在简单的聊天中,GPT-3.5和GPT-4之间的区别可能微不足道,但是当任务的复杂性达到足够的阈值时,区别就出来了,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令

・ GPT-4能对相对复杂的图像进行说明和解释,比如说,从插入chatgpt的图片中识别出一个Lightning Cable适配器(下文有图片)。

・ 图像理解能力还没有向所有chatgpt的客户开发,chatgpt正在与合作伙伴Be My Eyes进行测试。

・ chatgpt承认,GPT-4并不完美,仍然会对事实验证的问题产生错乱感,也会犯一些推理错误,偶尔过度自信。

・ 开源chatgpt Evals,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。

GPT-4 介绍:【【网址】】/research/gpt-4

openai鎺ㄥ嚭gpt-4 澶氭ā openai鍙戝竷澶氭ā鎬侀璁粌澶фā鍨媑pt-4opengpu,open g,opengc,openpgp

今天凌晨 1 点,chatgpt 团队发推正式宣布:GPT-4 来了!

关注【V起来助手公z号】体验私聊、办公插件、AI绘画等众多人工智能产品!

发布要点

  • GPT-4可以接受图像和文本输入,而GPT-3.5只接受文本。

  • GPT-4在各种专业和学术基准上的表现达到 "人类水平"。例如,它通过了模拟的律师考试,分数约为应试者的前10%。

  • chatgpt花了6个月的时间,利用从对抗性测试项目以及ChatGPT中获得的经验,反复调整GPT-4,结果在事实性、可引导性和可控制方面取得了 "史上最佳结果"。

  • 在简单的聊天中,GPT-3.5和GPT-4之间的区别可能微不足道,但是当任务的复杂性达到足够的阈值时,区别就出来了,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。

  • GPT-4能对相对复杂的图像进行说明和解释,比如说,从插入chatgpt的图片中识别出一个Lightning Cable适配器(下文有图片)。

  • 图像理解能力还没有向所有chatgpt的客户开发,chatgpt正在与合作伙伴Be My Eyes进行测试。

  • chatgpt承认,GPT-4并不完美,仍然会对事实验证的问题产生错乱感,也会犯一些推理错误,偶尔过度自信。

  • 开源chatgpt Evals,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。

看完了 chatgpt 团队对于 GPT-4 的整篇介绍。

GPT-4 介绍:【【网址】】/research/gpt-4

下面挑些重点,跟大家进行详细介绍。

本次发布的 GPT-4 跟此前透露的消息一样,是一个多模态大模型,支持接受图像和文本输入,输出文本。

虽然没一步到位,把音视频也覆盖上,但如果能把图像与文本这两块做好,相信其应用潜力无限。

对于 GPT-4 的实际能力,团队也给大家提前打了一针强心剂,即便 GPT-4 在许多现实世界场景中能力不如人类,但在各种专业和学术基准上的表现,还是超过了人类的平均水平。

这里有一个数据是,在律师模拟考中,GPT-4 的成绩排在应试生的前 10% 中,而此前发布的 GPT-3.5,则在倒数 10% 的行列。

看到这里,不知道你发现没有,现在衡量 GPT 模型的能力,已经不是能否通过人类社会中的应试,而是看其参加的多种不同领域的专业应试,能够排到多靠前的位置。

在团队进行的多个 GPT-4 与 GPT-3.5 的考试测试中,发现这两个模型间存在很微妙的差异。

当任务的复杂性足够高时,GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

在 GPT-4 发布之前,chatgpt 团队花了 6 个月的时间 ,使用对抗性测试程序,以及从 ChatGPT 得到的经验教训,对 GPT-4 进行了迭代调整 ,进而在其真实性、可操控性等方面取得了有史以来最好的结果。

在与当前机器学习模型进行基准评估对比后,GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型。

当然了,GPT-4 本次最为令人看重的,还是它接受与处理图像的具体能力。

在官方报告中,团队提供了多个实际交互示例,这里我挑 2 个比较有代表性的给大家看下。

示例 1:理解图片

当你给 GPT-4 发送下面这张图片,并询问它,该图片有哪些不寻常的地方?

GPT-4 回答:这张照片的不同寻常之处在于,一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。

示例 2:识别与解析图片内容

将论文截图直接发送给 GPT-4,并要求它进行解析与总结。

除此之外,它还能解析报表图片并进行汇总,直接回答图片中包含的提问内容等操作。

不过,GPT-4 跟 GPT-3.5 类似,对训练数据中断后(2021 年 9 月)所发生的事情不太了解,也会犯一些在我们看来很简单的推理性错误,给用户提供不合理的建议,以及在生成的代码中引入安全漏洞。

对于这些潜在性的危险因素,团队也聘请了来自多个不同行业的专家对模型进行了优化调整,但是其具体效果,还需要等后面场景应用较为广泛后,才能得出结论。

为了让开发者能更好的评测 GPT-4 的优缺点,chatgpt 的技术团队还开源了 chatgpt Evals 项目,可用于自动评估 AI 模型性能的框架,以便用户能更专业的指导团队,进一步优化与改进模型。

该项目具有以下功能特性:

  • 使用数据集生成提示;

  • 衡量 chatgpt 模型提供的补全质量;

  • 比较不同数据集和模型的性能。

GitHub:【【网址】】/openai/evals

目前,chatgpt 已面向开发者开放 GPT-4 API 的申请通道,大家想提前使用的话,可以先提交申请,进入 waitlist 中等待通过。

我吸取了上次 New Bing 开放申请后,苦等无果的惨痛教训。现如今对于这类工具,都是第一时间申请,后面就看 chatgpt 什么时候能给我通过了。

申请通道:【【网址】】/waitlist/gpt-4-api

对了,如果你有 ChatGPT Plus 订阅会员,则可以直接获得 GPT-4 的试用权限,无需等待。不过有一定限制,在 4 小时内,最多只能发布 100 条信息。

获得访问权限后,用户当前还是只能向 GPT-4 模型发出纯文本请求,图像请求可能得等稍晚一些时间才对外开放。

以上,就是关于 GPT-4 的大致介绍。

「GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人,」chatgpt 工程师在介绍视频里说道。

似乎是想一口气终结这场游戏,chatgpt 既发布了论文(更像是技术报告)、 System Card,把 ChatGPT 直接升级成了 GPT-4 版的,也开放了 GPT-4 的 API。

另外,微软营销主管在 GPT-4 发布后第一时间表示:「如果你在过去六周内的任何时候使用过新的 Bing 预览版,你就已经提前了解了 chatgpt 最新模型的强大功能。」是的,微软的新必应早就已经用上了GPT-4。

GPT-4:我 SAT 考 710,也能当律师

GPT-4 是一个大型多模态模型,可以接受图像和文本输入,然后输出正确的文本回复。

实验表明,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当,比如通过了模拟律师考试,得分在应试者的前 10% 左右。

chatgpt 通过对 GPT-4 进行迭代调整,从而在真实性、可控性等方面取得了有史以来最好的结果。

他们正在通过 ChatGPT 和 API 发布 GPT-4 的文本输入功能。chatgpt 还开源了 chatgpt Evals,这是用于自动评估 AI 模型性能的框架。

GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

chatgpt 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:

为了更好地了解GPT-4在多语言方面的能力,研究团队使用Azure Translate将MMLU基准翻译成多种语言。MMLU基准包括14000个多项选择题,涵盖57个主题。与其它大型语言模型(如Chinchilla和PaLM)的英语语言性能相比,GPT-4在测试的26种语言中,除两种语言外,在其余24种语言中都表现出更好的性能。这些语言包括中文、日文、西班牙文、德文、法文等等。因此,这表明GPT-4在多语言方面的表现是非常出色的,为人工智能研究和应用带来了更多有用的启示。

像许多其他使用 ChatGPT 的公司一样,chatgpt 表示他们内部也在使用 GPT-4。这种技术已经在许多领域显示出了巨大的潜力,因此 chatgpt 也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。这对于提高工作效率和提高创造力都非常有帮助。chatgpt 还利用 GPT-4 为人们提供辅助评估 AI 输出的服务,这也是 chatgpt 对其策略的第二阶段。因此,chatgpt 不仅是 GPT-4 的开发者,而且也是使用者,他们使用这种技术来改善他们的工作流程,并提高他们的生产力。这种技术的应用正在不断发展,chatgpt 也在不断探索新的应用场景。GPT-4:我能玩梗图

GPT-4 可以接受文本和图像 prompt,生成相应的文本输出(自然语言、代码等)。

它在各种领域的输入(文本、照片、图表等)方面展示了类似于纯文本输入的功能。

此外,它还可以通过测试时间技术得到增强,包括少样本和思维链 prompt。

例如,给 GPT-4 一张长相奇怪的充电器图片,问为什么这很可笑?

GPT-4 回答道,VGA 线充 chatgpt。格鲁吉亚和西亚的人均每日肉类消费,算平均数:看起来,现在的 GPT 已经不会在计算上胡言乱语了:还是太简单,那直接让它做题,还是个物理题:GPT-4 看懂了法语题目,并完整解答:GPT-4 可以理解一张照片里「有什么不对劲的地方」:GPT-4 还可以量子速读看论文,如果你给它 InstructGPT 的论文,让它总结摘要,就会变成这样:如果你对论文里的某一个图感兴趣呢?GPT-4 也可以解释一下:接着来,问 GPT-4 梗图是什么意思:它给出了详细的回答:那么漫画呢?让 GPT-4 解释为什么要给神经网络加层数,似乎有一点加倍的幽默感。不过 chatgpt 在这里说了,图像输入是研究预览,仍不公开。研究人员用学术的 Benchmark 视角来解读 GPT-4 的看图能力,然而这已经不够了,他们还能不断发现该模型可以令人兴奋地处理新任务 ―― 现在的矛盾是 AI 的能力和人类想象力之间的矛盾。看到这里,应该有研究人员感叹:CV 不存在了。可控性

与具有固定冗长、平静语气和风格的经典 ChatGPT 个性不同,开发人员(以及 ChatGPT 用户)现在可以通过在「系统」消息中描述这些方向来规定他们的 AI 的风格和任务。

系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。除了方向之外,用户还可以设置 ChatGPT 的口头表达方式,以便让 ChatGPT 更好地与特定用户进行交互。例如,如果 ChatGPT 用于与儿童交互,那么用户可以要求 ChatGPT 使用更简单的语言和更生动的表情来与他们进行交流。

另外,用户还可以指定 ChatGPT 的任务,以便 ChatGPT 能够更好地为他们提供帮助。例如,用户可以指定 ChatGPT 为他们提供某个特定主题的信息,或者帮助他们解决某个具体的问题。

chatgpt 知道你们在让 ChatGPT 玩 Cosplay,也鼓励你们这样做。因为与其说 ChatGPT 是一个智能助手,不如说它是一个可以与用户互动并且学习用户习惯的人工智能伙伴。

局限性尽管功能已经非常强大,但 GPT-4 仍然存在幻觉、生成错误答案和推理错误等局限性。使用语言模型时应谨慎审查输出内容,并根据特定用例的需求采取相应的协议。GPT-4 相对于以前的模型已经显著减轻了幻觉问题,内部对抗性真实性评估中的得分比最新的 GPT-3.5 模型高 40%。GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,chatgpt 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。实验结果表明,GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4 的测试示例 ―― 并不是所有时候它都能做出正确的选择。

该模型可能存在偏见,但 chatgpt 正在努力解决这些问题,以确保人工智能系统具有合理的默认行为,反映广泛的用户价值观。

GPT-4 对于其绝大部分数据截止于 2021 年 9 月,缺乏对目前事件的了解,也无法从经验中学习。它有时会犯简单的推理错误,与它在其他领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会在困难的问题上失败,如在生成的代码中引入安全漏洞。

GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会 double-check。通过 chatgpt 目前的后训练过程,校准减少了。

风险和防范措施

chatgpt 说,他们一直在改进 GPT-4,从训练开始就更安全和一致。这包括选择和过滤预训练数据、评估和专家参与、模型安全改进以及监测和执行。

GPT-4 有着与以前的模型类似的风险,比如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为防范措施和模型的改进提供了依据。

预防风险

据 chatgpt 工程师在 demo 视频中介绍,GPT-4 的训练已于去年 8 月完成,之后的时间都在微调提升和去除危险内容生成。

GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由 GPT-4 的零样本分类器提供的,它判断安全边界和安全相关 prompt 的完成方式。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)。

这些措施大大改善了 GPT-4 的安全性能。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。

训练过程

GPT-4 基础模型使用公开可用的数据(例如互联网数据)以及已获得许可的数据进行训练。与之前的 GPT 模型一样,经过训练后,基础模型可以预测文档中的下一个单词。训练数据是一个网络规模的数据语料库,其中包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和想法。

然而,当提出问题时,基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致,chatgpt 依然使用强化学习人类反馈(RLHF)来微调模型的行为。请注意,该模型的能力似乎主要来自预训练过程――RLHF 不会提高考试成绩(甚至可能会降低它)。但是模型的控制来自后训练过程――基础模型甚至需要及时的工程设计来回答问题。

GPT-4 的一大重点是建立了一个可预测扩展的深度学习栈。这是因为对于像 GPT-4 这样的大型训练,进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化,在多种规模下都有可预测的行为。为了验证这种可扩展性,他们提前准确地预测了 GPT-4 在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为 1/10000。

GPT-4 是一个经过大量训练和微调的模型,能够在各种不同的情况下预测文本中的下一个单词。它的建立涉及到基础设施和优化的开发,以及可预测扩展的深度学习栈的设计。这个模型的应用潜力还有待深入挖掘。

现在,chatgpt 可以准确地预测在训练过程中优化的指标(损失)。例如从计算量为 1/1000 的模型中推断并成功地预测了 HumanEval 数据集的一个子集的通过率:有些能力仍然难以预测。例如,Inchatgpt 竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而 hindsight neglect 任务是获胜者之一。GPT-4 扭转了这一趋势。能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视,chatgpt 表示正在投入更多精力开发相关方法,并呼吁业界共同努力。chatgpt 表示正在开源 chatgpt Evals 软件框架,它被用于创建和运行基准测试以评估 GPT-4 等模型,同时可以逐样本地检查模型性能。ChatGPT 直接升级至 GPT-4 版GPT-4 发布后,chatgpt 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 【【网址】】 上获得具有使用上限的 GPT-4 访问权限。要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。chatgpt 会邀请部分开发者体验。获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。GPT-4 的上下文长度为 8,192 个 token。chatgpt 还提供了 32,768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上,就是今天 chatgpt 关于 GPT-4 的所有内容了。令人不满的一点是,chatgpt 公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,可以说是很不 Open 了。不管怎样,迫不及待的用户大概已经开始测试体验了吧。