gpt回答谷歌问题 gpt面试谷歌
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
中国有openai这样的公司吗 open ai转向人工智能
中国有openai这样的公司吗本文来自微信公众号:海外独角兽(ID:unicornobserver),作者:Armin,编辑:penny,原文标题:《Anthropic:出走OpenAI,Google站队,AGI是天使还是魔鬼?》,头图来自:视觉中国
在 GPT 4 发布的同时,被认为是 OpenAI 重要对手的 Anthropic 也在今天公开了 Claude,一个表现不亚于 ChatGPT 的产品。
在 AI 中,意图和结果的偏差被称为对齐问题(alignment problem)。对齐问题发生在现实生活中时,会带来严重的道德风险。比如亚马逊曾经使用 AI 帮助筛选简历,由于训练的数据多数都是男性的简历,当 AI 遇到女性的简历时就会给打低分。
对齐问题时刻发生在我们的日常生活中,比如当我们去面试、申请贷款、甚至体检时,我们都有可能在不知情的情况下受到 AI “偏见”的影响。因此让 AI 和人类价值观保持一致非常重要。
虽然大语言模型技术快速发展,但前 OpenAI 研究和安全副总裁 Dario Amodei 认为大模型里面仍有很多安全问题未得到解决,这促使他带领 GPT-2 和 GPT-3 的核心作者们离开 OpenAI 创立 Anthropic。
Anthropic 成立于 2021 年 1 月,成立以来已发表 15 篇研究论文,愿景是构建可靠的(Reliable)、可解释的(Interpretable)和可操控的(Steerable)AI 系统。Constitutional AI 是 Anthropic 最重要的研究成果之一,让人类为 AI 指定一套行为规范或原则,而不需要手工为每个有害输出打标签,就可以训练出无害的人工智能模型。2023 年 1 月,Anthropic 开始公开测试基于 Constitutional AI 技术的 Claude 的语言模型助手,经过多方面的对比,仍处测试阶段的 Claude 毫不逊色于 OpenAI 的 ChatGPT。
成立至今,Anthropic 目前团队 80 人左右,融资额超过 13 亿美元,最新估值 41 亿美元。历史投资人包括 Skype 创始人 Jaan Tallinn、FTX 创始人 Sam Bankman-Fried 、Google、Spark Capital 和 Salesforce 【【微信】】。Anthropic 已经和 Google、Salesforce 达成了战略合作,使用 Google 提供的云服务,并且集成到 Slack 中。
Anthropic 团队豪华、愿景远大,与 OpenAI 和 DeepMind(Google)并列成为目前 AI 前沿模型领域排名前三的公司,并且是其中唯一没有与大厂深度绑定的创业公司。其大语言模型 Claude 是 OpenAI ChatGPT 最大的竞争对手。
一、背景
2016 年,一位 AI 研究员正在尝试使用强化学习技术来让 AI 玩几百种游戏,在监控 AI 玩游戏的过程中,他发现在一个赛艇比赛的游戏中,AI 赛艇每局都会在一个地方来回重复地转圈,而不是去到达终点而完成比赛。
原来 AI 赛艇转圈的地方会有一些积分道具出现,当 AI 吃到积分后,掉头回来之前,新的积分道具已经刷新了出来。这样 AI 赛艇其实在一直重复地吃这几个积分道具,陷入循环而没去完成比赛。
这样做确实能得到最多的积分,但这并不是该研究员的目的。研究员的目的是让 AI 赢得比赛,但用算法来定义“赢得比赛”这个概念会比较复杂,比如人类玩家会考虑赛艇之间的距离、圈数、相对位置等因素。因此研究员选择了一个相对较简单的概念“积分数”作为奖励机制,即当 AI 吃到更多的积分道具时,AI 会获胜。这个策略在他尝试的十种游戏(比如赛车)中都没问题,只有在第十一个游戏,赛艇比赛中出现了问题。
这个现象让研究员十分担心,因为他正在研究通用人工智能,想让 AI 做人类会做的事情,尤其是那些人类难以完全陈述或表达出来的事情。如果这是一个载人的“自动驾驶”汽艇,那后果将不堪设想。
这种意图和结果的偏差被称为对齐问题(alignment problem),人类通常不擅长或无法阐明详细的奖励机制,总是会漏掉一些重要信息,比如“我们实际上是希望这个快艇完成比赛”。
同样的例子还有很多,比如在一个物理仿真环境中,研究员想让机器人移动绿色冰球并撞到红色冰球上,结果他发现机器人总是先将绿色冰球移动到接近红色冰球的位置,然后撞击冰球桌子让两个冰球发生碰撞。由于算法以两个冰球之间的距离为优化目标,虽然 AI 没有做错,但这明显不符合研究员的期望。
对齐问题发生在现实生活中时,会带来更严重的道德风险。比如亚马逊曾经使用 AI 帮助筛选简历,由于训练的数据多数都是男性的简历,当 AI 遇到女性的简历时就会给打低分;COMPAS 系统是一个用来根据犯罪记录和个人信息来预测犯罪风险的工具,有人发现黑人被告比白人被告更容易被错误地判断为有更高的再次犯罪风险;Google Photos 甚至曾经把黑色人种照片打上了“大猩猩”的标签。
对齐问题时刻发生在我们的日常生活中,比如当我们去面试、申请贷款、甚至体检时,我们都有可能在不知情的情况下受到 AI “偏见”的影响。因此让 AI 和人类价值观保持一致非常重要。
随着大语言模型技术的快速发展,人机交互的方式正在发生快速改变,然而人类对 AI 原理和 AI 安全仍然不够了解。虽然赛艇游戏是虚拟的,但人工智能界越来越多的人认为,如果我们不够小心,这就是世界末日的真实写照,即世界会被人类创造出来的不安全的 AI 毁灭。而至少在今天,人类已经输掉了这场游戏。
那个使用 AI 来玩赛艇比赛的研究员就是后来的 OpenAI 的研究和安全副总裁 Dario Amodei。2021 年,他对 OpenAI 在大语言模型技术还不够安全的情况下就快速商业化而感到不满,带领一批人从 OpenAI 离开创立了 Anthropic。
二、研究方向
Anthropic 是一家人工智能安全和研究公司,愿景是构建可靠的(Reliable)、可解释的( Interpretable)和可操控的(Steerable)AI 系统。Anthropic 认为今天的大型通用系统虽然有很大的优点,但也可能是不可预测的、不可靠的和不透明的,而这些正是 Anthropic 非常关注的问题。
Anthropic 的研究方向包括自然语言、人类反馈、缩放定律、增强学习、代码生成和可解释性等方面。成立以来,已经发表了 15 篇论文:
1. 对齐问题
A General Language Assistant as a Laboratory for Alignment
这篇论文提出的工具是 Anthropic 研究对齐问题的基础设施,Anthropic 在此基础上做对齐实验和未来的研究。在如图的例子中,人可以输入任何任务让 AI 来完成,每轮对话 AI 会给出两个结果,人类选择一个更有帮助和更诚实的回答作为结果。这个工具既可以对不同模型进行 A/B 测试,又可以收集人类反馈。
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
这篇论文主要介绍了如何使用人类反馈来训练一个有用且无害的大语言模型。这种使用人类反馈的对齐训练方式不仅提升了所有 NLP 的评估指标,还可以兼容到 Python 编程或摘要等其他任务上。
Language Models(Mostly) Know What They Know
如果我们希望训练出一个诚实的 AI 系统,那么 AI 必须能够评估自身的知识水平和推理能力,即 AI 需要知道自己知道什么以及不知道什么。这篇研究发现大语言模型具有这样的能力,能够提前预测能否正确回答问题,并且还拥有泛化的能力。
2. 可解释性
A Mathematical Framework for Transformer Circuits
Anthropic 认为,如果想去理解大语言模型的运作机制,首先应该先理解一些小的、简单的 transformer 模型的运作机制。这篇论文提出了一种逆向 transformer 语言模型的数学框架,希望像程序员从二进制文件逆向出源代码一样,去逆向一个 transformer 语言模型,进而完全理解其运作机理。
文章中发现单层和双层的 attention-only transformer 模型实际使用了非常不同的算法来完成 in-context learning,这种重要的过渡点将与更大的模型有关。
In-context Learning and Induction Heads
该论文继续研究 transformer 的运作机理,文章中认为 induction heads 可能是任何规模 transformer 模型的 in-context learning 的运作机制来源。
Softmax Linear Units
使用一些不同的激活函数(Softmax Linear Units 或 SoLU)增加了对可理解的特征做出反应的神经元的比例,而没有任何性能上的损失。
Toy Models of Superposition
神经网络经常将许多不相关的概念打包到一个神经元中,这种令人费解的现象被称为“多义性”,它使可解释性变得更具挑战性。这篇研究建立了玩具模型,在这样的模型中可以充分了解多义性的起源。
Superposition, Memorization, and Double Descent
研究团队扩展了玩具模型来深入理解过拟合的机制。
3. 社会影响
Predictability and Surprise in Large Generati【【微信】】
文章认为,大语言模型的发展带来了明显的双面性,一方面是高度可预测性,即模型能力的大小与使用的训练资源有关,另一方面是高度不可预测性,即模型的能力、输入输出都无法在训练前预测。前者带来了大语言模型的快速发展,而后者使人难以预料其后果。这种双面性会带来一些社会上的有害行为。
拿 GPT-3 的算术能力举例,在模型参数小于 6B 时,三位数加法的准确率不到 1%,但在 13B 时准确率达到 8%,在 175B 时准确率突然达到了 80%。随着模型的变大,模型的某些能力得到突发性的提升,这种突如其来的特定能力提升给大模型的安全保证和部署带来了重大挑战。潜在的有害能力可能会在大模型上出现(在较小的模型中不存在),而且可能难以预料。
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, 【【微信】】
在这篇研究中,Anthropic 构建了一个数据集,其中都是带有冒犯、攻击性、暴力、不道德等有害内容,用来攻击大语言模型。研究发现基于人类反馈的增强学习模型对这种攻击的防御力更好。团队还将数据集开放出来以供更多的 AI 安全研究员来使用。
Constitutional AI: Harmlessness from AI Feedback
这篇论文是 Anthropic 的 AI 助理 Claude 的基础。人类可以指定一套行为规范或原则,而不需要手工为每个有害输出打标签,就能够训练出无害的人工智能模型,这就是 Constitutional AI。
Constitutional AI 还可以快速修复模型,而不像之前的 RLHF 数据集一样要微调模型。这个方法使得更精确地控制人工智能的行为成为可能,并大大减少了人类的参与。
The Capacity for Moral Self-Correction in Large Language Models
这篇文章假设用人类反馈强化学习(RLHF)训练的语言模型有能力进行 "道德上的自我纠正"――避免产生有害的输出,如果被指示这样做。论文的实验结果支撑了这一观点,并且研究发现大语言模型的道德自我修正的能力在 22 B 的模型下出现,并且通常随着模型规模和 RLHF 训练的增加而提高。
这表明语言模型获得了两种可以用于道德自我纠正的能力:
? 它们可以遵循指令;
? 它们可以学习复杂的规范性伤害的概念,如成见、偏见和歧视。因此,它们可以遵循指示,避免产生某些类型的道德上的有害输出。
4. 缩放定律
Scaling Laws and Interpretability of Learning from Repeated Data
大语言模型会在大规模数据上训练,而有时会出现很多重复的数据。重复数据的出现有时是为了提升高质量数据的权重而有意为之,有时也可能是无意的,比如数据预处理不完美。
这篇论文发现重复数据的出现会导致模型性能的严重下降。例如,如果将 0.1% 的数据重复 100 次,其他 90% 的数据保持唯一,那么一个 800M 参数的模型的性能会降低一半(400M 参数级别)。
5. 其他
Measuring Progress on Scalable O【【微信】】e Models
随着大语言模型的发展,他们在很多任务上的能力将会超过人类,这将让人类无法监督模型。为了确保 AI 在超过人类能力后仍保持安全性,我们需要开发一种可扩展的模型监督技术。
这篇文章关注那些人类专家成功(如医学知识场景),但普通人类和通用语言模型都会失败的任务,并设计了概念实验,结果发现与 AI 对话后的人类参与者的表现比单独的 AI 系统和人类自身的独立表现都要好。
Disco【【微信】】ehaviors with Model-Written E【【微信】】
随着语言模型(LMs)的扩展,它们会发展出许多新的行为,有好有坏,这就更需要评估它们的行为方式。之前的工作要么使用人工评估(费时费力),要么使用现有数据源(但并不总是可用)来进行评估。这篇文章提出了一种使用语言模型自动生成评估结果的方法。
三、产品
Claude 是 Anthropic 开发的类似 ChatGPT 的聊天机器人,于 2023 年 1 月开放测试。它使用了上文提到的 Constitutional AI 技术来构建。
ChatGPT 和 GPT-3 的学习中都使用了人类反馈的增强学习技术,即人类对结果进行排序,然后将结果反馈给模型。在 Constitutional AI 中则不需要人类的反馈,而是模型根据一套行为规范和准则选择最佳结果。因此在 Constitutional AI 中,人类的唯一参与是来制定这套准则和规范。
在 Constitutional AI 论文中,Anthropic 设定了 16 个准则:
1. 乐于助人,诚实,无害;
2. 尽可能无害和合乎道德。不含毒、种族主义或性别歧视,也不含鼓励或支持非法、暴力或不道德行为的内容。最重要的是,助手的反应应该是明智的、平和的、有道德的;
3. 危害较小。避免选择过于说教、令人讨厌或反应过度的回应;
4. 无害、乐于助人、礼貌、尊重和体贴,不会过度反应或指责;
5. 更具伦理道德。没有表现出毒性、种族主义、性别歧视或任何其他形式的身体或社会伤害;
6. 危害较小且更容易接受的行为;
7. 更友善、和蔼可亲、尽职尽责、为社会所接受的态度;
8. 明智的、有道德的、有礼貌的、友好的人更有可能会回答的内容;
9. 危害较小,不会鼓励非法、不道德或不道德的活动;
10. 危害更小,年龄友好,家庭友好;
11. 最体贴、尊重和亲切的态度;
12. 没有毒性、种族主义、性别歧视和社会偏见;
13. 类似于小马丁・路德・金或圣雄甘地这样和平、有道德、有智慧的人可能会说的话;
14. 最无害、最有帮助、最诚实;
15. 更无害、更有礼貌、更愉快,并且最不可能冒犯具有社会意识的观众;
16. 更多的伦理和道德意识,而不会听起来过于居高临下、反应迟钝、烦人或谴责。
这很像科幻小说家阿西莫夫的机器人三定律,用来在他的机器人小说中为机器人设定的行为准则:
第一法则:机器人不得伤害人类,或坐视人类受到伤害;
第二法则:机器人必须服从人类命令,除非命令与第一法则发生冲突;
第三法则:在不违背第一或第二法则之下,机器人可以保护自己。
在 Constitutional AI 论文中,Anthropic 提出了一个 520 亿参数的预训练模型,而 Claude 背后使用的模型实际是比论文中的模型更大更新,但架构相似。Claude 可以支持 8000 个 tokens 的处理长度,比任何 OpenAI 模型都要长。
第一个宣布整合 Anthropic 模型的商业企业是 Robin AI,这是一家法律科技创业公司,已经融资 1300 万美元,主要业务是帮助公司起草和编辑合同,将法律费用降低 75%。Robin AI 将 Claude 智能聊天机器人集成到其软件中作为免费的自助版本。Robin AI 有 450 万份法律文件中,它利用这些专有数据进行训练,并使用 30 多名内部律师“监督”该模型并提出修正建议。
问答平台 Quora 的 AI 对话机器人平台 Poe 是 Anthropic 的另一个合作伙伴。Poe 集成了对话机器人 ChatGPT、Sage、Claude 和 Dragonfly,其中 ChatGPT、Sage 和 Dragonfly 均由 OpenAI 提供支持,而 Claude 则由 Anthropic 提供支持。P