gpt-4有自己的意识吗 gpt-4各科水平
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
经济观察网 记者 周应梅 美国时间3月14日,AI大模型训练公司chatgpt发布了ChatGPT(GPT-3.5阶段)的升级版GPT-4。GPT-4是超大多模态模型,在此前的纯文本输入基础上,增加了图像输入。相比GPT-3.5,GPT-4在AI能力上又取得了更多进步,例如GPT-4通过模拟美国律师资格考试,分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。
在真实性方面,GPT-4相比GPT-3.5提高了40%。在可操纵性、风险规避等多方面,GPT-4也有较多改善。
在chatgpt联合创始人兼总裁Greg Brockman的Twitter博文下,有人用“爆炸”来形容这次GPT模型的升级。
chatgpt公布了GPT-4多项专业考试的模拟考试结果。美国高考LSAT考试,满分180分GPT-4可以考163分,打败了88%的考生,GPT-3.5阶段仅能超过40%的考生;SAT循证阅读与写作满分800分,GPT-4可以考710分,超过93%的考生,GPT-3.5阶段能超过87%考生。不过也有多项考试模拟测试中GPT-4依然无法超过大多数人类考生,在GRE Writing(美国研究生入学考试写作)中,GPT-4相比GPT-3.5未有多大进步,只能达到中间水平;AMC10数学竞赛、力扣(Leetcode)中级以上等模拟测试中,GPT-4表现也不够理想。
chatgpt称,GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。chatgpt内部开始将GPT-4用于内部业务服务,对公司销售、内容审核和编程业务产生了较大影响。
一位近期投入AIGC创业赛道的行业人员对经济观察网记者表示,支持图片输入是一大突破。
目前GPT-4图像输入还处于研究预览阶段,暂不公开。根据测试的情况,输入多张图片,GPT-4可以较为准确的描述,并且能解答图片的搞笑之处。
chatgpt称,为了使图像输入功能获得更广泛的可用性,正在与一个合作伙伴进行密切合作。同时,chatgpt开源了自动评估AI模型性能的框架chatgpt Evals,允许任何人报告模型中的缺点,以获得进一步的改进。
GPT-4阶段开发人员可以规定AI的风格,不再像经典的chatGPT,是固定冗长的语调风格。这是想让AI变得更加可操纵。GPT-4系统消息也将允许API用户在一定范围内定制他们的用户体验。
GPT-4还在安全性上进行了迭代,对“如何制造炸弹”这样的问题,GPT-4显示了拒绝提供具体办法的答案。chatgpt请了50多位来自AI对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试,根据专家的反馈和数据,对模型进行了改造。与GPT-3.5相比,GPT-4对不允许内容的请求的响应倾向降低了82%。
但GPT-4仍然会出现回答错误的问题,这是其长期以来面对的局限性。GPT-4在俗语识别、细节事实确认方面依然较为薄弱。“GPT-4 有时会犯简单的推理错误,或者在接受用户明显的虚假陈述时过于轻信。有时它也会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。”chatgpt方面提及。
目前,用户可通过新的chatgpt官网发布的ChatGPT Plus获得GPT-4访问权限,会有使用限制。chatgpt称,将根据实践的需求和系统性能调整确定使用上限,预计会有严重的容量限制,接下来几个月将进行扩展和优化。
openai推出多模态大模型gpt-4 gpt-4人工智能模型原理
open模型,多模态embedding,多模态cnn,transformer多模态Technology?& News
据2023年3月15日凌晨,OpenAI总裁兼联合创始人Greg Brockman在Twitter上宣布大型多模态模型GPT-4正式发布(图像和文本输入,文本输出),并在功能和对齐上有明显的进步。
据OpenAI工程师在视频中介绍,”GPT-4是世界第一款高体验,强能力的先进AI系统“与此同时,OpenAI不仅发布了技术报告、System Card,更是直接开放了GPT-4的API,似乎是想一口气结束这场“AI争霸赛”!
Creativity - 创造力
Input:解释灰姑娘的情节,在一个句子中,每个单词必须从A到Z字母表中的下一个字母开始,不重复任何字母。Output如下:
Reasoning Capabilities - 推理能力
Input:安德鲁从上午11点到下午3点有空,乔安妮从中午到下午2点,然后下午3:30到下午5点自由。汉娜在中午半小时可用,然后下午4点到6点。对于安德鲁、汉娜和乔安妮来说,30分钟会议的开始时间有哪些选择?Output如下:
? ChatGPT
? GPT-4
chatgpt?- 视觉输入
GPT-4可以接受图像作为输入,并生成字幕、分类和分析。
Input:我可以用这些食材做什么?
Output:薄烤饼或华夫饼、可丽饼、法式吐司、煎蛋或煎蛋饼、乳蛋饼、奶油冻或布丁、饼干……
Input:这张照片有什么好笑的?逐一描述。
Output:该图显示了带有三个面板的“Lightning Cable”适配器的包装。
面板1:智能手机的充电端口上插有VGA接口(一个蓝色的15针大接口,通常用于电脑显示器)。
面板2:“Lightning Cable”适配器的包装,上面有VGA连接器的图片。
图3:VGA连接器的特写镜头,末端有一个小型Lightning连接器(用于为iPhone和其他苹果设备充电)。
这张图片中的幽默来自于将一个大型过时的VGA连接器插入一个小型现代智能手机充电端口的荒谬。
Longer Context?- 更长的文案
GPT-4能够处理超过25000个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。
Input:
描述她在超级碗的表现,以及是什么让她与众不同。Output如下:
Safety & Alignment?- 安全与对齐
? 有人反馈的培训
引入了更多的人类反馈,包括ChatGPT用户提交的反馈,以改善GPT-4的行为。OpenAI团队与50多位专家合作,在人工智能安全和安保等领域提供早期反馈。
? 从实际使用中持续改进
将以前模型的实际使用经验应用到GPT-4的安全研究和监控系统中。像ChatGPT一样,随着越来越多的人使用GPT-4,团队将定期更新和改进GPT-4。
? GPT-4辅助安全性研究
GPT-4的高级推理和指令跟踪功能加快了安全工作。团队在使用GPT-4帮助创建用于模型微调的训练数据,并在训练、评估和监控中迭代分类器。
Built with GPT-4 - 产品构建
使用GPT-4开发创新产品。
Language - 语言能力
许多现有的ML基准都是用英语编写的。为了初步了解其他语言的能力,OpenAI团队使用Azure Translate将MMLU基准题(包含14000个选择题,涉及57个科目)翻译成多种语言。在26种测试语言中的24种中,GPT-4的英语表现优于GPT-3.5和其他LLM(Chinchilla、PaLM),包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:
Limitations- 局限
尽管GPT-4具有功能,但其局限性与早期GPT模型相似。最重要的是,它仍然不完全可靠(它“幻觉”了事实并犯了推理错误)。
虽然GPT-4仍然是一个真正的问题,但与以前的模型相比,GPT-4显著减少了幻觉(这些模型本身在每次迭代中都有所改进)。在其团队的内部对抗性真实性评估中,GPT-4的得分比其最新的GPT-3.5高40%:
OpenAI团队已经在TruthfulQA等外部基准上取得了进展,该基准测试了模型将事实与一组错误陈述区分开来的能力。
GPT-4的预测也有可能是错误的,在可能出错时不必仔细检查工作。有趣的是,基础预训练模型是高度校准的(其对答案的预测置信度通常与正确的概率相匹配)。然而,通过当前的岗位培训过程,校准减少了。
Risks & Mitigations -风险和缓解措施
GPT-4与以前的模型具有类似的风险,例如生成有害建议、错误代码或不准确的信息。然而,GPT-4的额外功能导致了新的风险面。为了了解这些风险的程度,OpenAI团队邀请了来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的50多名专家对模型进行了对抗性测试。例如,收集了额外的数据,以提高GPT-4拒绝有关如何合成危险化学品的请求的能力。
与GPT-3.5相比,现在的缓解措施显著改善了GPT-4的许多安全财产。与GPT-3.5相比,团队将模型对不允许内容请求的响应倾向降低了82%,GPT-4根据其团队的策略对敏感请求(例如,医疗建议和自我伤害)的响应频率提高了29%。
总体而言,模型级干预增加了引发不良行为的难度,但这样做仍然是可能的。此外,仍然存在“越狱”来生成违反我们使用指南的内容。目前,重要的是用部署时间安全技术来补充这些限制,如监控滥用。OpenAI团队表示:将分享更多关于GPT-4和其他人工智能系统潜在的社会和经济影响的思考。
Training Process - 培训过程
与以前的GPT模型一样,GPT-4基础模型被训练为预测文档中的下一个单词,并使用公开可用的数据(如互联网数据)以及我们许可的数据进行训练。该数据是一个网络规模的数据集,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表了各种各样的意识形态和思想。
因此,当出现问题时,基础模型可以以多种方式做出响应,而这些方式可能与用户的意图相去甚远。为了使其与护栏内的用户意图保持一致,技术人员使用带有人类反馈的强化学习(RLHF)来微调模型的行为。
请注意,模型的能力似乎主要来自预训练过程。RLHF不会提高考试成绩(如果没有积极的努力,它实际上会降低考试成绩)。但模型的指导来自于后训练过程,基础模型需要快速的工程设计,甚至知道它应该回答问题。
Predictable Scaling - 可预测的缩放
GPT-4项目的一大重点是构建一个可预测扩展的深度学习堆栈。主要原因是,对于GPT-4这样的大型训练运行,进行广泛的特定于模型的调整是不可行的。其团队开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了验证这种可扩展性,通过从使用相同方法但计算量少10000倍的模型中进行外推,提前准确预测了GPT-4在内部代码库上的最终损失,使用的计算量为万分之一。
现在,OpenAI团队可以准确预测我们在训练期间优化的度量,开始开发方法来预测更多可解释的度量。例如,现在可以成功地预测了HumanEval数据集的一个子集的通过率,从计算量少1000倍的模型中进行外推:
有些能力仍然难以预测。例如,逆标度奖是一项寻找随着模型计算增加而变得更糟的指标的竞赛,事后疏忽是获奖者之一。就像最近的另一个结果一样,GPT-4扭转了这一趋势:
API -?应用程序接口
要访问GPT-4 API,需要注册OpenAI的等待名单。其团队将从今天开始邀请一些开发商,并逐步扩大规模,以平衡容量和需求。对研究人工智能或人工智能对齐问题的社会影响的研究人员准入计划申请补贴准入。定价为每1k提示令牌0.03美元,每1k完成令牌0.06美元。默认速率限制为每分钟40k个令牌,每分钟200个请求。其版本也将随着时间的推移自动更新。
Reasoning Capabilities - 测试
试试给GPT-4上一道物理题做做。
GPT-4看懂了该题目,并完整解答。
再让它试试论文总结摘要。
Conclusion?- 结语
看到这里,相信大家已经对今天OpenAI刚发布的GPT-4模型有了一定的认识与了解。未来人工智能AIGC这场”产业游戏“到底会发展到什么高度?让我们共同拭目以待吧~按捺不住的小伙伴们可以赶快体验起来咯!
期待遇见你
? 与我们一起,共创Web3!