open ai gpt-4技术报告

互联资讯 2023-05-21 08:32:02 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

本文由「AI医学」公众号提供

医海无涯，AI同舟。关注我们，助力高效科研。

今天凌晨 1 点，chatgpt 团队发推正式宣布：GPT-4 来了！

发布要点

・ GPT-4可以接受图像和文本输入，而GPT-3.5只接受文本。

・ GPT-4在各种专业和学术基准上的表现达到"人类水平"。例如，它通过了模拟的律师考试，分数约为应试者的前10%。

・ chatgpt花了6个月的时间，利用从对抗性测试项目以及ChatGPT中获得的经验，反复调整GPT-4，结果在事实性、可引导性和可控制方面取得了 "史上最佳结果"。

・在简单的聊天中，GPT-3.5和GPT-4之间的区别可能微不足道，但是当任务的复杂性达到足够的阈值时，区别就出来了，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。

・ GPT-4能对相对复杂的图像进行说明和解释，比如说，从插入chatgpt的图片中识别出一个Lightning Cable适配器（下文有图片）。

・图像理解能力还没有向所有chatgpt的客户开发，chatgpt正在与合作伙伴Be My Eyes进行测试。

・ chatgpt承认，GPT-4并不完美，仍然会对事实验证的问题产生错乱感，也会犯一些推理错误，偶尔过度自信。

・开源chatgpt Evals,用于创建和运行评估GPT-4等模型的基准，同时逐个样本检查其性能。

GPT-4 介绍：【【网址】】/research/gpt-4

openai鎺ㄥ嚭gpt-4 澶氭ā openai鍙戝竷澶氭ā鎬侀璁粌澶фā鍨媑pt-4opengpu,open g,opengc,openpgp

今天凌晨 1 点，chatgpt 团队发推正式宣布：GPT-4 来了！

关注【V起来助手公z号】体验私聊、办公插件、AI绘画等众多人工智能产品！

发布要点

GPT-4可以接受图像和文本输入，而GPT-3.5只接受文本。
GPT-4在各种专业和学术基准上的表现达到 "人类水平"。例如，它通过了模拟的律师考试，分数约为应试者的前10%。
chatgpt花了6个月的时间，利用从对抗性测试项目以及ChatGPT中获得的经验，反复调整GPT-4，结果在事实性、可引导性和可控制方面取得了 "史上最佳结果"。
在简单的聊天中，GPT-3.5和GPT-4之间的区别可能微不足道，但是当任务的复杂性达到足够的阈值时，区别就出来了，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。
GPT-4能对相对复杂的图像进行说明和解释，比如说，从插入chatgpt的图片中识别出一个Lightning Cable适配器（下文有图片）。
图像理解能力还没有向所有chatgpt的客户开发，chatgpt正在与合作伙伴Be My Eyes进行测试。
chatgpt承认，GPT-4并不完美，仍然会对事实验证的问题产生错乱感，也会犯一些推理错误，偶尔过度自信。
开源chatgpt Evals,用于创建和运行评估GPT-4等模型的基准，同时逐个样本检查其性能。

看完了 chatgpt 团队对于 GPT-4 的整篇介绍。

GPT-4 介绍：【【网址】】/research/gpt-4

下面挑些重点，跟大家进行详细介绍。

本次发布的 GPT-4 跟此前透露的消息一样，是一个多模态大模型，支持接受图像和文本输入，输出文本。

虽然没一步到位，把音视频也覆盖上，但如果能把图像与文本这两块做好，相信其应用潜力无限。

对于 GPT-4 的实际能力，团队也给大家提前打了一针强心剂，即便 GPT-4 在许多现实世界场景中能力不如人类，但在各种专业和学术基准上的表现，还是超过了人类的平均水平。

这里有一个数据是，在律师模拟考中，GPT-4 的成绩排在应试生的前 10% 中，而此前发布的 GPT-3.5，则在倒数 10% 的行列。

看到这里，不知道你发现没有，现在衡量 GPT 模型的能力，已经不是能否通过人类社会中的应试，而是看其参加的多种不同领域的专业应试，能够排到多靠前的位置。

在团队进行的多个 GPT-4 与 GPT-3.5 的考试测试中，发现这两个模型间存在很微妙的差异。

当任务的复杂性足够高时，GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

在 GPT-4 发布之前，chatgpt 团队花了 6 个月的时间，使用对抗性测试程序，以及从 ChatGPT 得到的经验教训，对 GPT-4 进行了迭代调整，进而在其真实性、可操控性等方面取得了有史以来最好的结果。

在与当前机器学习模型进行基准评估对比后，GPT-4 大大优于现有的大型语言模型，以及大多数最先进的 (SOTA) 模型。

当然了，GPT-4 本次最为令人看重的，还是它接受与处理图像的具体能力。

在官方报告中，团队提供了多个实际交互示例，这里我挑 2 个比较有代表性的给大家看下。

示例 1：理解图片

当你给 GPT-4 发送下面这张图片，并询问它，该图片有哪些不寻常的地方？

GPT-4 回答：这张照片的不同寻常之处在于，一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。

示例 2：识别与解析图片内容

将论文截图直接发送给 GPT-4，并要求它进行解析与总结。

除此之外，它还能解析报表图片并进行汇总，直接回答图片中包含的提问内容等操作。

不过，GPT-4 跟 GPT-3.5 类似，对训练数据中断后（2021 年 9 月）所发生的事情不太了解，也会犯一些在我们看来很简单的推理性错误，给用户提供不合理的建议，以及在生成的代码中引入安全漏洞。

对于这些潜在性的危险因素，团队也聘请了来自多个不同行业的专家对模型进行了优化调整，但是其具体效果，还需要等后面场景应用较为广泛后，才能得出结论。

为了让开发者能更好的评测 GPT-4 的优缺点，chatgpt 的技术团队还开源了 chatgpt Evals 项目，可用于自动评估 AI 模型性能的框架，以便用户能更专业的指导团队，进一步优化与改进模型。

该项目具有以下功能特性：

使用数据集生成提示；
衡量 chatgpt 模型提供的补全质量；
比较不同数据集和模型的性能。

GitHub：【【网址】】/openai/evals

目前，chatgpt 已面向开发者开放 GPT-4 API 的申请通道，大家想提前使用的话，可以先提交申请，进入 waitlist 中等待通过。

我吸取了上次 New Bing 开放申请后，苦等无果的惨痛教训。现如今对于这类工具，都是第一时间申请，后面就看 chatgpt 什么时候能给我通过了。

申请通道：【【网址】】/waitlist/gpt-4-api

对了，如果你有 ChatGPT Plus 订阅会员，则可以直接获得 GPT-4 的试用权限，无需等待。不过有一定限制，在 4 小时内，最多只能发布 100 条信息。

获得访问权限后，用户当前还是只能向 GPT-4 模型发出纯文本请求，图像请求可能得等稍晚一些时间才对外开放。

以上，就是关于 GPT-4 的大致介绍。

「GPT-4 是世界第一款高体验，强能力的先进AI系统，我们希望很快把它推向所有人，」chatgpt 工程师在介绍视频里说道。

似乎是想一口气终结这场游戏，chatgpt 既发布了论文（更像是技术报告）、 System Card，把 ChatGPT 直接升级成了 GPT-4 版的，也开放了 GPT-4 的 API。

另外，微软营销主管在 GPT-4 发布后第一时间表示：「如果你在过去六周内的任何时候使用过新的 Bing 预览版，你就已经提前了解了 chatgpt 最新模型的强大功能。」是的，微软的新必应早就已经用上了GPT-4。

GPT-4：我 SAT 考 710，也能当律师

GPT-4 是一个大型多模态模型，可以接受图像和文本输入，然后输出正确的文本回复。

实验表明，GPT-4 在各种专业测试和学术基准上的表现与人类水平相当，比如通过了模拟律师考试，得分在应试者的前 10% 左右。

chatgpt 通过对 GPT-4 进行迭代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。

他们正在通过 ChatGPT 和 API 发布 GPT-4 的文本输入功能。chatgpt 还开源了 chatgpt Evals，这是用于自动评估 AI 模型性能的框架。

GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

chatgpt 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型，以及大多数 SOTA 模型：

为了更好地了解GPT-4在多语言方面的能力，研究团队使用Azure Translate将MMLU基准翻译成多种语言。MMLU基准包括14000个多项选择题，涵盖57个主题。与其它大型语言模型（如Chinchilla和PaLM）的英语语言性能相比，GPT-4在测试的26种语言中，除两种语言外，在其余24种语言中都表现出更好的性能。这些语言包括中文、日文、西班牙文、德文、法文等等。因此，这表明GPT-4在多语言方面的表现是非常出色的，为人工智能研究和应用带来了更多有用的启示。

像许多其他使用 ChatGPT 的公司一样，chatgpt 表示他们内部也在使用 GPT-4。这种技术已经在许多领域显示出了巨大的潜力，因此 chatgpt 也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。这对于提高工作效率和提高创造力都非常有帮助。chatgpt 还利用 GPT-4 为人们提供辅助评估 AI 输出的服务，这也是 chatgpt 对其策略的第二阶段。因此，chatgpt 不仅是 GPT-4 的开发者，而且也是使用者，他们使用这种技术来改善他们的工作流程，并提高他们的生产力。这种技术的应用正在不断发展，chatgpt 也在不断探索新的应用场景。GPT-4：我能玩梗图

GPT-4 可以接受文本和图像 prompt，生成相应的文本输出（自然语言、代码等）。

它在各种领域的输入（文本、照片、图表等）方面展示了类似于纯文本输入的功能。

此外，它还可以通过测试时间技术得到增强，包括少样本和思维链 prompt。

例如，给 GPT-4 一张长相奇怪的充电器图片，问为什么这很可笑？

GPT-4 回答道，VGA 线充 chatgpt。格鲁吉亚和西亚的人均每日肉类消费，算平均数：看起来，现在的 GPT 已经不会在计算上胡言乱语了：还是太简单，那直接让它做题，还是个物理题：GPT-4 看懂了法语题目，并完整解答：GPT-4 可以理解一张照片里「有什么不对劲的地方」：GPT-4 还可以量子速读看论文，如果你给它 InstructGPT 的论文，让它总结摘要，就会变成这样：如果你对论文里的某一个图感兴趣呢？GPT-4 也可以解释一下：接着来，问 GPT-4 梗图是什么意思：它给出了详细的回答：那么漫画呢？让 GPT-4 解释为什么要给神经网络加层数，似乎有一点加倍的幽默感。不过 chatgpt 在这里说了，图像输入是研究预览，仍不公开。研究人员用学术的 Benchmark 视角来解读 GPT-4 的看图能力，然而这已经不够了，他们还能不断发现该模型可以令人兴奋地处理新任务 ―― 现在的矛盾是 AI 的能力和人类想象力之间的矛盾。看到这里，应该有研究人员感叹：CV 不存在了。可控性

与具有固定冗长、平静语气和风格的经典 ChatGPT 个性不同，开发人员（以及 ChatGPT 用户）现在可以通过在「系统」消息中描述这些方向来规定他们的 AI 的风格和任务。

系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。除了方向之外，用户还可以设置 ChatGPT 的口头表达方式，以便让 ChatGPT 更好地与特定用户进行交互。例如，如果 ChatGPT 用于与儿童交互，那么用户可以要求 ChatGPT 使用更简单的语言和更生动的表情来与他们进行交流。

另外，用户还可以指定 ChatGPT 的任务，以便 ChatGPT 能够更好地为他们提供帮助。例如，用户可以指定 ChatGPT 为他们提供某个特定主题的信息，或者帮助他们解决某个具体的问题。

chatgpt 知道你们在让 ChatGPT 玩 Cosplay，也鼓励你们这样做。因为与其说 ChatGPT 是一个智能助手，不如说它是一个可以与用户互动并且学习用户习惯的人工智能伙伴。

局限性尽管功能已经非常强大，但 GPT-4 仍然存在幻觉、生成错误答案和推理错误等局限性。使用语言模型时应谨慎审查输出内容，并根据特定用例的需求采取相应的协议。GPT-4 相对于以前的模型已经显著减轻了幻觉问题，内部对抗性真实性评估中的得分比最新的 GPT-3.5 模型高 40%。GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展，chatgpt 测试了模型将事实与错误陈述的对抗性选择区分开的能力，结果如下图所示。实验结果表明，GPT-4 基本模型在此任务上仅比 GPT-3.5 略好；然而，在经过 RLHF 后训练之后，二者的差距就很大了。以下是 GPT-4 的测试示例 ―― 并不是所有时候它都能做出正确的选择。

该模型可能存在偏见，但 chatgpt 正在努力解决这些问题，以确保人工智能系统具有合理的默认行为，反映广泛的用户价值观。

GPT-4 对于其绝大部分数据截止于 2021 年 9 月，缺乏对目前事件的了解，也无法从经验中学习。它有时会犯简单的推理错误，与它在其他领域的能力不相符，或者过于轻信用户的明显虚假陈述。有时它也会在困难的问题上失败，如在生成的代码中引入安全漏洞。

GPT-4 预测时也可能出错但很自信，意识到可能出错时也不会 double-check。通过 chatgpt 目前的后训练过程，校准减少了。

风险和防范措施

chatgpt 说，他们一直在改进 GPT-4，从训练开始就更安全和一致。这包括选择和过滤预训练数据、评估和专家参与、模型安全改进以及监测和执行。

GPT-4 有着与以前的模型类似的风险，比如产生有害的建议、错误的代码或不准确的信息。同时，GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度，团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家，对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估，来自这些专家的反馈和数据为防范措施和模型的改进提供了依据。

预防风险

据 chatgpt 工程师在 demo 视频中介绍，GPT-4 的训练已于去年 8 月完成，之后的时间都在微调提升和去除危险内容生成。

GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号，通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由 GPT-4 的零样本分类器提供的，它判断安全边界和安全相关 prompt 的完成方式。为了防止模型拒绝有效的请求，团队从各种来源（例如，标注的生产数据、人类的红队、模型生成的 prompt）收集多样化的数据集，在允许和不允许的类别上应用安全奖励信号（有正值或负值）。

这些措施大大改善了 GPT-4 的安全性能。与 GPT-3.5 相比，模型对不允许内容的请求的响应倾向降低了 82%，而 GPT-4 对敏感请求（如医疗建议和自我伤害）的响应符合政策的频率提高了 29%。

训练过程

GPT-4 基础模型使用公开可用的数据（例如互联网数据）以及已获得许可的数据进行训练。与之前的 GPT 模型一样，经过训练后，基础模型可以预测文档中的下一个单词。训练数据是一个网络规模的数据语料库，其中包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述，以及各种各样的意识形态和想法。

然而，当提出问题时，基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致，chatgpt 依然使用强化学习人类反馈（RLHF）来微调模型的行为。请注意，该模型的能力似乎主要来自预训练过程――RLHF 不会提高考试成绩（甚至可能会降低它）。但是模型的控制来自后训练过程――基础模型甚至需要及时的工程设计来回答问题。

GPT-4 的一大重点是建立了一个可预测扩展的深度学习栈。这是因为对于像 GPT-4 这样的大型训练，进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化，在多种规模下都有可预测的行为。为了验证这种可扩展性，他们提前准确地预测了 GPT-4 在内部代码库（不属于训练集）上的最终损失，方法是通过使用相同的方法训练的模型进行推断，但使用的计算量为 1/10000。

GPT-4 是一个经过大量训练和微调的模型，能够在各种不同的情况下预测文本中的下一个单词。它的建立涉及到基础设施和优化的开发，以及可预测扩展的深度学习栈的设计。这个模型的应用潜力还有待深入挖掘。

现在，chatgpt 可以准确地预测在训练过程中优化的指标（损失）。例如从计算量为 1/1000 的模型中推断并成功地预测了 HumanEval 数据集的一个子集的通过率：有些能力仍然难以预测。例如，Inchatgpt 竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标，而 hindsight neglect 任务是获胜者之一。GPT-4 扭转了这一趋势。能够准确预测未来的机器学习能力对于技术安全来说至关重要，但它并没有得到足够的重视，chatgpt 表示正在投入更多精力开发相关方法，并呼吁业界共同努力。chatgpt 表示正在开源 chatgpt Evals 软件框架，它被用于创建和运行基准测试以评估 GPT-4 等模型，同时可以逐样本地检查模型性能。ChatGPT 直接升级至 GPT-4 版GPT-4 发布后，chatgpt 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在【【网址】】上获得具有使用上限的 GPT-4 访问权限。要访问 GPT-4 API（它使用与 gpt-3.5-turbo 相同的 ChatCompletions API），用户可以注册等待。chatgpt 会邀请部分开发者体验。获得访问权限后，用户目前可以向 GPT-4 模型发出纯文本请求（图像输入仍处于有限的 alpha 阶段）。至于价格方面，定价为每 1k 个 prompt token 0.03 美元，每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。GPT-4 的上下文长度为 8,192 个 token。chatgpt 还提供了 32,768 个 token 上下文（约 50 页文本）版本的有限访问，该版本也将随着时间自动更新（当前版本 gpt-4-32k-0314，也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上，就是今天 chatgpt 关于 GPT-4 的所有内容了。令人不满的一点是，chatgpt 公开的技术报告中，不包含任何关于模型架构、硬件、算力等方面的更多信息，可以说是很不 Open 了。不管怎样，迫不及待的用户大概已经开始测试体验了吧。

本文地址： https://www.528683.com//show-411802.html