gpt4最新消息 gpt-4有多牛
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
图片来源@视觉中国
文|雷科技
一夜之间,ChatGPT「开眼了」。
4 个月前发布 ChatGPT 最初就只支持文本输入和文本输出,也就是进行文字聊天。然而在 GPT-4 发布之后,ChatGPT 甚至可以看懂一些梗图,并解释「梗」在哪。但 GPT-4 升级远不止如此。
美国当地时间 3 月 14 日,【【微信】】 正式发布了多模态大型语言模型 GPT-4。【【微信】】 在介绍中表示,虽然 GPT-4 在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。
与 ChatGPT 发布之初基于的 GPT-3.5 大模型相比,【【微信】】 宣称 GPT-4 拥有更强的语言理解能力,在准确度上有了显著提升,虽然还无法解决「胡说八道」的问题,但出现概率已经降低了 60%。
此外,GPT-4 的训练语料库还停留在 2021 年 9 月之前,但对科学、医学、法律等特定领域进行了知识面的扩充,不仅能在美国统一律师资格考试中取得前列成绩,在奥赛、GRE 等考试均取得了很高的分数,甚至 SAT 成绩――可以理解为美国高考成绩――已经超过了 90%的考生,跨过哈佛、斯坦福等名校的门槛。
部分考试成绩,图/【【微信】】
同时 GPT-4 的其中一个重点升级是增加了对图片输入的支持,有了对图片进行总结和评论的能力。在官方示例中,GPT-4 就针对去年热传的一组图片进行了解读,并指出其中的「笑点」。
机翻,图/【【微信】】
Twitter 上还有用户获得图片输入测试资格展示了,GPT-4 如何根据冰箱里剩下的食材推荐今日菜谱。不仅是人类的黑话被 ChatGPT「破译」了,ChatGPT 也第一次「触碰」到了现实世界,让 ChatGPT 未来在更多场景的使用成为了可能。
但需要一提的是,目前图像识别功能还处于测试阶段,暂时不公开使用,仅限部分客户公司和研究人员使用。但除此之外,GPT-4 的所有升级都已经面向 ChatGPT Plus 用户和部分 ChatGPT API(应用程序接口)全面开放。
不过,GPT-4 相比 GPT-3.5 到底带来了多大的进步,又可能会掀起什么样的风暴,以及中国的 ChatGPT――特别是即将在 3 月 16 日发布的百度文心一言,还有赶超的机会吗?
GPT-4 大大大升级
在 【【微信】】 发布 GPT-4 的直播中,第一个介绍的就是对更长内容的支持――可以直接读取的 token 数从 4096 个(GPT-3.5)升级到了 32000 个,约等于可以一次性输入 25000 个英文单词。
很多普通用户可能用不上也不理解这项升级的重大意义,但大幅增长的上下文长度将极大扩展 ChatGPT 的推理能力和用例数量,比如可以将患者的全部病史一并输入,或是将冗长的法律合同输入,都能减少 ChatGPT 对前后分开内容的「误读」,提高输出内容的准确性和实用性。
【【微信】】 也提到,简单聊天中 GPT-4 升级并不明显(不包括图片输入支持),但当任务的复杂度达到足够的阈值,GPT-4 将体现出远比 GPT-3.5 更可靠、更有创造力的表现。
此外,ChatGPT 在 GPT-4 大模型的加持下,不仅能够生成更具说服力和吸引力的内容,还支持更个性化的需求和聊天风格。官方示例就展示了「苏格拉底」风格设定下的 GPT-4 老师是如何调教人类学生,一步一步思考并解出方程组「3x + 2y=7, 9x -4y=1」的正确答案。
GPT-4,图/【【微信】】
如果对比下基于 GPT-3.5 的 ChatGPT 就能明白它们之间的差距。
我们将同样的设定和问题输入 ChatGPT(GPT-3.5),它不仅没有表现出「苏格拉底」循循善诱的教导,反而直接给出了推导过程――答案还是错误的「x=23/27,y=22/9」。
ChatGPT(GPT-3.5),图/【【微信】】
从过程到结果,GPT-4 至少在教导人类解方程式这件事上吊打了 GPT-3.5,甚至可以说已经很接近人类老师的教导过程。甚至我们可以想象,GPT-4 如果充分学习了鲁迅的资料,或许赛博「鲁迅」老师也可以成为所有人的语文老师,甚至是终身导师。
这也引出了另一个升级重点――不同语言的能力。【【微信】】 官方承认,GPT 不管从语料库、基准测试、开发人员都是以英文为主,故而对英文的理解和输出能力都胜过其他语言。
但即便如此,在 GPT-4 下,包括中文在内的大部分语言处理能力基本都超过了 GPT-3.5 的英文处理能力。中国版 ChatGPT 的压力更大了。
不过,尽管 GPT-4 的能力再一次实现了惊人的进步,包括在对抗性事实性评估中的得分比 GPT-3.5 高出 40%,但还是存在一些「一本正经地胡说八道」,即 AI 对事实产生「幻觉」,并出现推理错误。
比如之前 ChatGPT(GPT-3.5)回答并流传出的「林黛玉三打白骨精」,我们在基于 GPT-4 的 【【微信】】 中也进行了测试,虽然提醒了我们这不是原著中的情节,但同样「虚造」了改编视频的存在,这一点可以从引用资料中轻易得出结论。
图/必应
就如 【【微信】】 CEO 山姆・阿特曼所说,GPT-4 仍然存在缺陷,但它有明显的改进,相比以前的模型不仅幻觉减少、偏见减少,还更有创意。
另外据 【【微信】】 官网介绍,摩根士丹利、多邻国、By My Eyes 等 6 个企业客户已经率先使用了 GPT-4,其中大概也包括微软。
微软和 【【微信】】 又前进了一大步
早在今年 2 月,就有传闻称微软将在当时尚未发布的 Bing 上集成 GPT-4。事实证明的确如此,Bing 团队在 GPT-4 正式发布后就表示:
我们很高兴确认 New Bing 基于 GPT-4 运行,这是我们为搜索定制的。如果您在过去五周内的任何时间使用过新版 Bing,那么您已经体验过这个强大模型的早期版本。随着 【【微信】】 对 GPT-4 及更高版本的更新,【【微信】】 也将从中受益。
事实上,微软德国技术总监也在上周提前透露了 【【微信】】 将在本周发布 GPT-4。而 【【微信】】 过去两年还与微软一起从头设计了一台专用于语言训练的超级计算机,GPT-4 就是跑在这台超级计算机上训练出来的。
再考虑到 2019 年的十亿美元投资和今年年初的数十亿美元投资,微软和 【【微信】】 很大程度上已经绑为一体。而 GPT-4 的正式推出再次确立了微软和 【【微信】】 在生成式 AI 上的领先,开发者 Pietro Schirano 就表示:「我不在乎它是不是通用人工智能,GPT-4 是一项令人难以置信的变革性技术。」
?
图/Twitter
与此同时,ChatGPT 的巨大成功一方面已经吸引了大量的商业应用,包括微软的 【【微信】】,同时也为微软 Azure 云计算平台拉来了大量客户,为微软继续力挺 【【微信】】 进行大量的研发和资金投入提供了充足的条件。
这样的强强联合,国产 ChatGPT 们还有希望吗?
国产大模型的差距又被拉大了?
时至今日,没有人会怀疑 ChatGPT 以及大语言模型的重要性了,包括科技部部长王志刚也在几周前重点谈到了 ChatGPT,指出就像踢足球都是盘带和射门,但要做到梅西那么好很难:
ChatGPT 在技术进步上,特别是保证算法的实时性与算法质量的有效性上,非常难。
换句话说,开发一个类似 ChatGPT 的对话机器人不难,但要实现 ChatGPT 同等水平的自然语言理解能力以及实时性,难度极高。
在国内一众宣称正在开发类 ChatGPT 中,只有阿里、腾讯、百度对大语言模型进行了大规模且长期的投入,而且百度也是三家之中对于 AI 倾注心血和时间最多的一家。可以说,从技术实力上,百度是目前最有希望在大语言模型上追赶 【【微信】】 的中国公司。
日前,百度也已经宣布将于 3 月 16 日下午召开文心一言发布会,如果顺利,文心一言将成为国内大公司推出的第一个类 ChatGPT 产品。不过据 WSJ 报道,百度从年前就在紧锣密鼓地进行类 ChatGPT 的开发,包括春节假期期间,甚至将原计划的支持中英双语缩减为专注中文。
在算力、资金、技术等方面都不占优势的情况下,指望百度一举追上甚至超越 【【微信】】 不现实。而且随着谷歌开放 PaLM API(5400 亿参数量的业界顶尖模型),以及 GPT-4 的进一步升级,大幅提高了通用版 GPT 的门槛,留给后来者的机会也越来越小。
但一方面,不管是 【【微信】】 还是谷歌对中文的重视程度明显不足,再加上网络和法规等诸多因素,注定很难在国内直接大规模落地,百度等国内公司如果能在中文上追平甚至超越 【【微信】】,也不失为一种可行路径。
另一方面,围绕大语言模型和生成式 AI 的商业模式还有大量的未知,【【微信】】 和百度一样需要不断地进行商业化尝试。百度此前宣布包括魅族、携程、兴业银行、美通社等 400 多家企业将首批接入文心一言生态,意图明显希望极大地扩展生成式 AI 的用户群体,除了考虑生态的建立,可能也是提前抢占中国更广泛用户的心智。
当然,在文心一言真正推出落地之前,很难评判它的真正实力和潜力。而且可以预见,文心一言将不可避免地被用来与 ChatGPT 进行对比,届时才是检验百度在大语言模型和生成式 AI 实力的时刻。
gpt-4概念龙头股一览 gpt4概念股
gpt46,gpc股票,gpt43,gpt40作者 | 凌梓郡、宛辰
编辑?|?靖宇
该来的终于到来了。
美国当地时间 3 月 14 日,大热的 【【微信】】 正式推出其最新作品?GPT-4?。通过 【【微信】】 再次点燃整个科技圈的想象力之后,?GPT-4?毫无疑问成为整个行业关注的焦点。
在 【【微信】】 官方网站中,这一代的大模型?GPT-4?相较于前一代产品,最大的进化在于「多模态」和长内容生成。
此前的 【【微信】】,用户只能输入文字,而?GPT-4?现在已经可以识别图片内容,并给出答案,甚至能识别一些网络上常见「梗图」,并告诉用户「笑点」到底是什么。在输出方面,?GPT-4?最多可以输出 25000 个单词,相比 【【微信】】 有大幅提升。
同时,相比上一代产品,?GPT-4?给出答案的错误更少,涉及到伦理和敏感问题时,回答也更「安全」。
?GPT-4?能像「哥哥」【【微信】】 一样再次席卷科技圈吗?它对接下来 AI 行业的走向,又会产生怎样的影响?
01
多了一双「眼」,更智能
根据 【【微信】】 介绍,相较于 【【微信】】,?GPT-4?有三个方面的主要提升。
1.?读图能力
对话时可以直接用图片提问,它能够在读懂图片内容的基础上,给出有逻辑的回答。比如,你可以给它一张牛奶、鸡蛋、面粉的图片,问他「这些材可以用来做什么?」它会给出一系列选项:
煎饼或华夫饼
法式薄饼、法式吐司
煎蛋或煎蛋饼
乳蛋饼
蛋奶或布丁
蛋糕或纸杯蛋糕
松饼或面包
饼干或饼干
图片来源|【【微信】】
当种读图能力和写代码能力相结合,就像有了魔法,在发布会上,【【微信】】 展示了如何让?GPT-4?帮你制作网页:
只要输入在笔记本上画出草图,拍照,对他说:用简短的 HTML/JS 将这个草图变成彩色的网站,能够几秒钟之内,一个完整的网页就可以出现。
图片来源|【【微信】】
目前 【【微信】】 还没有将?GPT-4?中的图像识别能力开放,为了更好地优化图像输入功能,【【微信】】 正在与 BeMyEyes 密切合作。这是一家在丹麦的公司它们在做的事情是用软件让视障人群与志愿者远程互动,后者做前者的眼睛,帮助他们完成生活任务。
接入了最新的图像识别能力之后,视障人群就像有了一个「更聪明的摄像头」,也被称为「虚拟志愿者」,之前的算法不能基于视觉信息做逻辑推理――这也是?GPT-4?与之前的视觉算法最大的区别。公司的 CTO Jesper H【【微信】】 解释,新的功能「不仅在于交谈的能力,还在于该技术提供的分析能力」,基本的图像识别应用程序只能告诉人们眼前发生了什么,现在算法能够判断地面上出现的事物「是否不仅仅是一个球,而是一个绊倒的危险,然后进行交流。」
2. 答案更可靠
在更涉及到逻辑的更复杂任务上,能够给出更可靠、也更有创造性的答案。
【【微信】】 让 GPT-4 参加了一系列考试,GPT-4 的表现均有所提升,有的甚至直接从 GPT-3.5 的差生变成了优等生。例如,在模拟律师资格考试上,它成绩在前 10% 左右;而 GPT-3.5 的成绩在后 10% 左右。满分为 800 分的 SAT Math,它从 590 分提升到了 700 分。
「在随意的交谈中,GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂性达到足够的阈值时,差异就会出现――GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。」【【微信】】 表示。
3. 内容更长更丰富
此外,在单次问答的信息处理量上也有了提升。在对GPT-4提问的时候,一次性能够输入长达 25000 单词。之前,有编剧跟极客公园交流,试用 【【微信】】 的时候跟,只能把剧本拆开一段段给模型看,现在,这样的烦恼应该会大大减轻。
也就是可以让他直接帮你读文章。你还可以扔给他一个链接,让他直接做阅读理解。
比如,给它美国歌星雷哈娜的维基百科链接,问她,「描述一下她在超级碗上的表现,以及为什么这么特别」
给出的回答是这样:
蕾哈娜在第七届超级碗中场秀上的表演很特别,原因有很多。首先,这是她五年多来的第一次现场表演,也是她第一次在超级碗中场秀上亮相。此外,她还创造了历史,成为第一个在怀孕期间在超级碗表演的人。这场演出本身就广受好评,许多人称赞她充满活力的表演和令人印象深刻的歌声。它也获得了大量的观众,成为历史上收视率第二高的中场秀。
图片来源|【【微信】】
4. 关于「胡编乱造」和「有害答案」
当然,目前大模型在「胡编乱造」上的问题,GPT-4 仍然有。不过 【【微信】】 表示,在对于「捏造事实」的内部测试上,GPT-4 的表现比 GPT-3.5 要高出 40%。GPT-4 的知识范畴也存在时间限制,截止于 2021 年 9 月。
在生成有害的想法上,【【微信】】 也强调了风险。「GPT-4 及其后续模式有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作,改进我们理解和评估潜在影响的方式,并对未来系统中可能出现的危险能力进行评估。」
由于在基于人类反馈的强化学习(RLHF)环节中,增加了一个额外的安全奖励信,这使得 GPT-4 目前的表现更加优秀一些。此外,【【微信】】 也聘请了 50 多名来自人工智能对齐风险(AI alignment risks)、网络安全、生物风险、信任与安全以及国际安全等领域的专家,对模型进行对抗性测试。研究结果中给出了两个例子。
02
?GPT-4 落地更快
对于 GPT-4 的表现,【【微信】】 总结道:我们花了 6 个月的时间迭代调整 GPT-4,使用了来自 【【微信】】 的经验教训和我们的对抗性测试程序,在真实性、可控性(steerability)和拒绝超出护栏(refusing to go outside of guardrails)方面得到了我们有史以来最好的结果。
显然,【【微信】】 的 GPT 大模型迭代速度变快了。GPT-4 距离上次 【【微信】】 的发布,不到 4 个月。这与其开放 【【微信】】 给个人用户和企业客户的举措有关,使机器基于人类反馈的强化学习(RLHF)更快,形成了数据飞轮的优势。
比 GPT-4 迭代更快的,是其落地应用的速度。
尽管 GPT-4 还没有全面开放API接口,但其实,【【微信】】 大股东微软的 【【微信】】 已经用上 GPT-4 超过一个月。在 【【微信】】 官宣 GPT-4 之后,微软在官方博客马上公布了这一消息,甚至在 5 天前,微软德国 【【微信】】 就作为全网独家信源替 【【微信】】 放出了风声。
人们此前没有明显感觉到 【【微信】】 中搭载了 GPT-4 的原因可能在于 GPT-4 的进步是微妙的。【【微信】】 阐述道,「在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙,当任务的复杂性达到足够的阈值时,差异就会出现――GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。」
微软的 Bing 搜索已经用上 GPT-4|微软
微软加持 【【微信】】 大模型的迭代还体现在底层基础设施上。【【微信】】 透露,在过去的两年里,与 Azure 一起为工作负载从头开始共同设计了一台超级计算机,重建了整个深度学习堆栈。
不仅如此,更多的应用也加入了 GPT-4 的早期使用阵营:
Stripe 宣布使用 GPT-4 扫描商业网站并向客户支持人员提供摘要;
语言学习工具软件 Duolingo 将 GPT-4 构建到新的语言学习订阅中;
摩根士丹利正在创建一个由 GPT-4 驱动的系统,该系统将从公司文件中检索信息并将其提供给金融分析师;
可汗学院正在利用 GPT-4 构建某种自动化导师。
毫无疑问,【【微信】】 的速度会越来越快。除了开放给客户使用获得数据飞轮,本次随着 GPT-4 的发布,【【微信】】 还开源了 【【微信】】 Evals,这是其用于自动评估 AI 模型性能的框架,允许任何人报告其大模型中的缺点,以帮助指导进一步改进。
对此,出门问问创始人李志飞将其评价为众包评测,将帮系统找茬的任务,众包给各位开发者和爱好者了,既让大家有参与感,又能让大家免费帮忙评估提高系统,一石二鸟。
03
?加速的 AGI
2022 年 11 月 30 日,当 【【微信】】 推出 【【微信】】 测试版的时候,也许不会料到,这款大语言模型加持下的对话机器人,会成为科技史上第一个最短时间用户破亿的产品,同时让全球科技从业者,再次因为 AI 的进展而兴奋起来。
而仅仅在 3 个月之后,【【微信】】 就推出了下一代产品 GPT-4,其迭代非常具有「硅谷速度」了,从更新频率上也能看出,团队对于拿下大语言模型赛道的必胜之心。
虽然相对于上一代产品,GPT-4 的进化不算「革命性」的,但是各项指标上百分之几十的提升,依然会为已经很热的 AI 赛道,再添一把火。
同时,一边联手微软,让 【【微信】】 在全球最大商业软件 Office、以及基建 Azure 云上落地;一边通过开放 API 接口,接入更多商业合作伙伴,【【微信】】 也成功将自己转型为类似云一样的平台型企业,生生闯出一条大模型的商业化之路,开了研究成果转商业的先河。
GPT 到底是不是通向人工智能的圣杯――通用人工智能的正确道路,现在还不好说。但可以肯定的是,GPT 的成功,已经让人们像当年互联网革命一样,想利用 AI「重新改造一切」。
GPT-4 的及时推出,给渴望改造和变革的人们,又打了一针强心剂。
以下为出门问问创始人李志飞对于此次 GPT-4 的评价:
1.?能力惊人:如果说 GPT3 系列模型给大家证明了 AI 能够在一个模型里做多个任务(也就是所谓通用),GPT-4 在很多任务上已经是人类水平(human-level),在很多专业和学术考试上超越 90% 的人类。各类中小学、大学和专业教育该如何应对?
2. 高效的炼丹:GPT-4 模型太大每次训练成本很高,但同时训练模型时很像炼丹需要做很多实验,如果这些实验都要在真实环境下跑一遍的话谁也承受不了。为此,【【微信】】 搞了所谓的 predictable scaling,就是可以用万分之一的成本来预测各个实验的结果(loss 和 human eval)。这把大模型训练从碰运气的炼丹升级成了「半科学」的炼丹。
3. 众包评测:这次提供了一个 open source 的 【【微信】】 evals,就是把系统性的帮系统找茬的任务众包给各位开发者和爱好者了,既让大家有参与感,又能让大家免费帮忙评估提高系统,一石二鸟。
4. 工程补漏:这次还发布了一个 system card,大概意思是为了减轻一本正经的胡说八道问题,系统打了各种各样的补丁做预处理和后处理,后面还会开放代码把打补丁能力众包给大家。这标志着 LLM 终于从一个优雅简单的 next token prediction 任务进入了各种 messy 的工程 hack 了。
5. 多模态:万众瞩目的多模态其实跟市场上很多论文描述的多模态能力没有太多差别,主要区别是把文本模型的 few-shot 和逻辑链(COT)结合进来了,这也是在一个基础能力很好的文本 LLM 加多模态的好处(其它多模态模型感觉 LLM 都太弱)。
6. 有计划的出王炸:GPT4 模型去年 8 月就炼出来了,但今天才发布,解释是花时间做了大量测试和各种查漏补缺。谷歌工程师傅估计又得熬夜跟了?
7. 不再 Open:论文里完全不讲模型参数和数据规模、也不讲任何技术原理,解释说是为了大家好,怕大家学会了怎么做 GPT4 用来作恶,个人完全不认同这种此地无银的做法。
8. 众志成城:论文里花了三页把系统的各个部分的贡献人员都列出来了,估计有一百多人,再次体现 【【微信】】 里团队成员众志成城、高度协作的状态。
PANews PARTY AWARD 2023 年度评选开启投票!
经数据初选、公开征集及社区推荐,本届评选已收集了超过190条报名信息,有深耕行业巨头,也有惊艳登场的新星。给无视牛熊“Keep Building”的真Builder 投上宝贵的一票!
阅读原文,了解详情↓↓↓
点个【 在看 】,你最好看