【重磅】OpenAI最新解密,ChatGPT的本质是无损压缩器
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
费斌杰 熵简科技CEO
作者 | 费斌杰 熵简科技CEO
自从去年12月ChatGPT问世以来,AI的发展正式进入快车道,整个行业开始“按日迭代”。从1957年以来,人类在经历了数轮AI浪潮后,这次通用人工智能(AGI)是真的要来了。
我们团队在2月发表了对ChatGPT技术原理的深度剖析,得到了业内专家朋友们的广泛认可。但随着研究的深入,越来越多的问题浮出水面:
ChatGPT强大的一个重要原因是大语言模型的涌现能力(Emergent Abilities),那么涌现能力究竟为何产生呢?
GPT-5会有哪些意想不到的性能表现?
AGI会走向何方,对社会经济活动又会产生怎样的影响?
在这篇文章中,我们针对以上问题进行深入探讨,并且给出尽可能详实的分析过程。本文浓缩了我们团队的研究成果,共分为以下四个部分:
大语言模型的本质:性能强大的无损压缩器
视觉信息是知识的富矿:从文本走向多模态
大数据时代的数据荒:运用合成数据破局
AGI对人类社会经济活动影响:展望与思考
写在前面:熵简科技是一家专注于帮助资管机构实现投研数字化的科技公司,主要客户包括中金、中信、广发、建投、国信、招商、华夏、嘉实、银华、博时、汇添富、兴全、易方达等证券与基金公司。我是熵简科技的创始人费斌杰,但在写下这篇文章的时候,我更多是纯粹作为一个在新技术浪潮下,既兴奋又紧张的见证者和参与者,尽可能客观地评述分析这项新技术对我们行业会带来怎样的影响与冲击。以下分享是我们熵简团队的研究成果,LLM技术发展日新月异,当前时点的分析难免错漏,欢迎各位指正。
大语言模型的本质:性能强大的无损压缩器
在最近OpenAI的学术分享会中,Jack Rae提出了一个重要的论断: 大语言模型的本质,其实是一个性能强大的数据无损压缩器。
LLM=Compression
这个论断并不是很直观,但却揭开了“通用人工智能”非常重要的一角,值得高度重视。为了让大家理解这个观点,我们从“学习”这件事本身来探讨。
上个世纪以来,人类普遍认为“学习”是一种人类特有的才能,机器无法真正地掌握“学习能力”。随着深度神经网络技术的发展,人们通过构建“人工神经元”来模拟大脑中的“生物神经元”,从而使得机器开始具备一定的学习能力。
图:生物神经元(左)与人工神经元(右)对比
而现在,OpenAI得出了关于“学习”的最新结论: “学习”这件事本身,可以理解为对有效信息进行无损压缩的过程。
为了更好地理解这个观点,让我们来做一个思想实验。 假设我们需要搭建一个模型,用来处理英译中的翻译任务。
最简单粗暴的方式,就是列举出每个英文单词对应的中文,即rule-based mapping。假设我们枚举完了所有英文单词的中文对照表,写出了一本1000页的词典。
但通过这本词典,我们真的能够有效完成所有英译中的翻译任务吗?答案是否定的。因为基于规则的映射系统是非常脆弱的,只要在翻译过程中遇到一个之前没有遇到过的新单词,系统就崩溃了。
因此,这个模型的翻译性能是很弱的,可以理解为“该模型没有真正学会翻译”。
重点来了,现在请你把这本1000页的词典,“无损压缩”成一本200页的手册。字数减少了,但是信息量不能少,因此你不能简单地从1000页中抽取200页构成一本“小词典”,而需要通过对数据进行 高维编码,从而实现 无损压缩。
经过压缩后的这本200页的手册中,不再是简单的单词映射,而是包含了主谓宾、定状补、虚拟语气、时态、单复数在内的英语语法。相比于一本“词典”来说,它更像是一本“教材”。
图:降低任务描述长度等价于增加对任务的理解
注意,在这个压缩的过程中,“学习”作为一种隐式的过程,起到了知识编码的作用。通过把一本1000页的词典压缩成一本200页的手册,模型“学会”了英语语法,掌握了英译中的知识。 通过这个例子,不难发现: 学习的本质,可以理解为对有效信息进行无损压缩的过程。压缩率越大,学习的效果就越好。
根据OpenAI的最新观点,基于GPT的大语言模型的是 性能卓越的数据压缩器。 语言模型的本质,是不断预测下一个词的概率分布,从而完成生成式任务。
但是从“无损压缩”的角度来看,如果模型对下一个词的预测更加准确,就意味着其对知识的理解更深,从而获得对这个世界更高的分辨率。 随着模型规模的提升,基于信息熵计算出的压缩率也会逐渐提升,这就解释了为什么模型的性能会随着规模的增加而增加。
而提升模型的压缩率并不只有 “增加规模”这一种方法,正如Jack Rae所言:Scaling is not all you need。 更好的算法架构、基于Plugin的工具集成、合成数据的运用都能够有效提升模型的压缩率 ,从而实现模型性能的进一步提升。
图:提升模型压缩率的几种方法
视觉信息是知识的富矿:从文本走向多模态
既然大语言模型发展的目标,是不断提升对有效信息的压缩率。那么自然地,如何获取尽可能多的有效信息,就成为了一个重要命题。
人类是一种拥有语言能力的视觉动物,我们大脑皮层中约有三分之一的区域是用于视觉信息解析的。因此, 视觉信息是人类知识的富矿。
图:大脑皮层中的视觉信号中枢
举个例子,我们都知道“太阳从东边升起,西边落下”,这是一个常识。但如果分析一下我们是如何学到这个知识的,我相信绝大多数人是通过眼睛亲眼看到的,而不仅仅是通过书本学习到的。
推而广之, 视觉信息往往是人类知识的源头。由于人类具备语言和写作能力,人们会把通过视觉获取到的信息慢慢地转变为文本形态传播出来。
因此,如果把人类已获得的全部知识看作一座冰山,那么以“文本”为载体的数据只是冰山一角,而以“图像”、“视频”为载体的数据才是人类知识真正的富矿。这也是OpenAI的GPT-5会基于海量互联网视频进行学习的原因。
具体而言,如果给模型看大量的天文观测视频,模型有可能学习出一个隐式的开普勒定律;给模型看大量的带电粒子运动轨迹,模型可能会学习出洛伦兹力的数学表达;当然,我们也可以更大胆一些,如果给模型学习强子对撞机的海量实验数据,模型是否可以解开希格斯玻色子的秘密,从而解答物质的“质量”之谜,这一切都相当值得期待。
图:基本粒子模型与上帝粒子
大数据时代的数据荒:运用合成数据破局
虽然人类社会早已进入了大数据时代,全球经济活动产生了大量数据资产,但是LLM所需的训练集膨胀速度更快。根据预测,到2026年文本数据将被训练完,图像数据将在2040年左右用完。
图:大语言模型对互联网存量数据消耗的预测
这对于“大力出奇迹”的大语言模型来说,并不是个好消息。如果训练集体量不够,模型便无法继续scaling up,从而不断提升性能天花板。
这个时候, “合成数据”成为了重要的破局方法。顾名思义,“合成数据”(Synthetic Data)指的是通过算法生成的训练集,而非从现实世界中采集到的样本。
根据Gartner的预测,2026年模型训练数据中的50%将由合成数据构成;2030年合成数据的质量将全面超过人类标注的真实数据。
图:Gartner对合成数据发展的预测
OpenAI在GPT-4的技术文档中重点提到了合成数据的应用,可见OpenAI对该领域的重视。
图:GPT-4技术报告中对合成数据应用的探讨
更进一步来看,如果合成数据的质量能够全面超越人类标注的质量,那么未来AGI便可以 自我迭代,进化的速度会大幅提升。到这时,人类可能就成为AGI的启动脚本(Boot Loader)了。
这不禁让我联想到马斯克曾在2014年做出的预言。他认为从“物种进化的尺度”来看, 以人类为代表的“碳基生命”可能只是以“AI”为代表的“硅基生命”的启动脚本。
这个预言令人毛骨悚然。放在14年那会儿,绝大部分人会认为这是危言耸听。但是当下我们再回头审视这个判断,不难发现这与“合成数据”的发展目标不谋而合。
合成数据领域的突破,可能成为AGI跨过奇点的重要里程碑,让我们拭目以待。
图:Musk在14年对AI发展的判断
AGI对人类社会经济活动影响:展望与思考
在刚结束的GTC大会上,NVIDIA的CEO黄仁勋将ChatGPT的诞生类比为移动互联网的iPhone时刻。但从人类科技发展史的尺度来看,我认为 ChatGPT的诞生更像是拉开了“第四次工业革命”的序幕,会带来社会生产力和生产关系的质变。
虽然有点不恰当,但如果把人类看作一台“生物化学计算机”,我们不妨比较一下人类与AGI的效率异同:
首先,从 “通信效率”的角度来看,人类之间的数据传输主要依靠交流,而交流的本质是以空气为媒介的机械波。与此相对,AGI之间的数据传输则主要通过GPU之间的NVLink,数据传输的带宽显著提升。
其次,从 “工作效率”的角度来看,人类受限于生物体内复杂的免疫机制、神经元修复机制等原理,需要保持充足的睡眠,才可以换取白天良好的工作状态。但是AGI只需要有充足的能源供给,便可以做到7*24的高强度作业,工作效率显著提升。
再次,从 “协作效率”的角度来看,由100个人组成的团队整体的工作效率往往会低于10人小组产出总量的10倍。随着组织人员规模的增加,人均产出不可避免的下降,需要通过“富有经验的管理艺术”才能激发团队协作的活力。相反,对于AGI来说,增加运算节点便可以扩大产能,并不会出现边际效用递减的管理与协作难题。
图:人工智能与人类智能的发展曲线
以上分析了相比于人类而言,AGI的生产力优势。但是人类在以下几个重点方面依然具备着不可替代的价值:
首先,虽然AGI在知识的广度上会远超人类,但是在具体领域的知识深度上,人类目前依然占据优势。
以金融投资为例,一位资深的投资经理可以根据不完整的市场信息做出模糊推断,从而获得超额收益;以科学研究为例,一位优秀的科学家可以从看似无关紧要的实验误差中推断出全新的理论体系。这些都是当前AGI难以企及的。
其次,社会经济活动的运转,高度依赖于人与人之间的“信任”,这种信任是AGI难以取代的。比如当你去医院看病的时候,即使AGI能够根据你的症状描述做出相当准确的诊断,你依然大概率会拿着诊断结果去咨询边上的人类医生,寻求一个值得信任的诊疗建议。类似的“信任机制”构成了医疗、教育、金融等领域中经济活动的重要基石。
随着AGI的发展,许多经济活动的游戏规则会悄然发生改变,而这个规则改变的契机,则会以AGI在该领域超过人类中的最强者作为分界线,正如AlphaGo的诞生彻底改变了围棋界的规则一样。
结语
这是最好的时代,也是最坏的时代。悲观者可能永远正确,但确实毫无意义。
纵观历史,人类科技史的发展并不是连续的,而是跳跃的。或许我们正在经历的正是一次人类科技水平的跳跃,无论如何,能够亲眼见证并参与其中,我们都是幸运的。
最后,分享一句我特别喜欢的话,这是OpenAI的CEO Sam Altman在30岁生日时给自己的人生建议:
The days are long but the decades are short.
参考文献
[1] Power, Alethea, et al. "Grokking: Generalization beyond o【【微信】】orithmic datasets." arXiv preprint arXiv:2201.02177 (2022).
[2] Bubeck, Sébastien, et al. "Sparks of artificial general intelligence: Early experiments with gpt-4." arXiv preprint arXiv:2303.12712 (2023).
[3] Eloundou, Tyna, et al. "Gpts are gpts: An early look at the labor market impact potential of large language models." arXiv preprint arXiv:2303.10130 (2023).
[4] Wu, Shijie, et al. "BloombergGPT: A Large Language Model for Finance." arXiv preprint arXiv:2303.17564 (2023).
[5] Liang, Percy, et al. "Holistic e【【微信】】odels." arXiv preprint arXiv:2211.09110 (2022).
[6] Brown, Tom, et al. "Language models are few-shot learners." Ad【【微信】】ation processing systems 33 (2020): 1877-1901.
[7] Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).
[8] Zhou, Yongchao, et al. "Large language models are human-le【【微信】】." arXiv preprint arXiv:2211.01910 (2022).
[9] Wei, Jason, et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).
[10] Zellers, Rowan, et al. "HellaSwag: Can a machine really finish your sentence?." arXiv preprint arXiv:1905.07830 (2019).
[11] Barocas, Solon, Moritz Hardt, and Ar【【微信】】. "Fairness in machine learning." Nips tutorial 1 (2017): 2017.
[12] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Ad【【微信】】ation Processing Systems 35 (2022): 27730-27744.
[13] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
本文来自微信公众号“熵简科技【【微信】】”(ID:Shangjian-Tech),作者:熵简CEO|费斌杰,36氪经授权发布。返回搜狐,查看更多
责任编辑:
【财智头条】推特“终结”,X“来临”,马斯克要做“美国微信”?
马斯克推特wifedoge,马斯克推特实时更新,推特 马斯克,马斯克发推特北京时间4月12日,当地时间周二,马斯克用一个大大的“X”,宣告了推特的“终结”,酝酿已久的“万能应用”计划正式开启。
从技术上讲,推特已经不再是一家独立公司。这个发现多亏了一桩诉讼。去年,极右翼人士劳拉・卢默(Laura Loomer)因为发表仇恨言论被推特禁言,一怒之下起诉了推特及其前CEO杰克・多西(Jack Dorsey)。结果,媒体发现,推特律师在4月4日递交加州法院的一份本案相关法律文件中表示:“推特已经并入X公司,不再存在了。”
万能应用X
文件显示,X是一家新成立的空壳公司,私人持股,它的母公司是X控股公司,没有上市公司拥有X或X控股公司10%或更多的股份。
去年4月,作为收购推特的一部分,马斯克首先在特拉华州以“X控股”的名称成立了三家控股公司。但是内华达州的记录显示,X公司于3月9日在该州成立。3月15日,X提交了与推特的合并事项。文件显示,马斯克担任该公司及其母公司X控股公司的总裁。X控股公司也是上个月成立的,法定资本为200万美元。
对于这一突如其来的变化,马斯克啥也没说,只在推特上发了一个“X”。
此举在推特上引发了激烈猜测。马斯克的推文在几个小时内吸引了超过1300万的点击量。在日本,“推特消灭”(Twitter Gone)的话题登上热搜。用户们开玩笑说,推特的新名字将很像当地摇滚乐队X Japan的名字。
尽管目前还不清楚这一变动对于推特来说意味着什么,但是各种迹象指向了马斯克曾经反复提及的万能应用X。他曾经说过,收购推特将是打造万物应用X的“催化剂”。
“马斯克可以创建一个类似Alphabet的控股公司结构,把他的所有公司纳入麾下,” 彭博行业研究分析师曼迪普・辛格(Mandeep Singh)表示,“如果Alphabet和Meta等规模更大的同行都很难成为一个面向消费者的全能应用,我不明白他怎么能在推特上推出电子商务或支付服务。”
几个月来,马斯克一直在讨论X的构建。去年8月,当一位推特用户询问他是否考虑过创建自己的社交平台时,他回答说,“X.com”,这是他5年前购买的一个网络域名。在同月举行的特斯拉年度股东大会上,马斯克表示,他对X有“一个相当宏伟的愿景”,认为它将“对世界非常有用”。
尽管他没有详细披露是否计划将推特转化为X,或者利用它打造一个全新平台,但是从他的一系列暗示中,我们或许能够看到这个万能应用的雏形。
而马斯克所谓的“万能应用”,和国内的微信很像,本质是通过一个平台全面满足用户需求,如:网上购物、和朋友聊天、看新闻、叫车等等。
社交媒体专家和行业评论员马特纳瓦拉表示:“虽然‘万能应用’这个概念已在亚洲取得了巨大成功,但在美国还没有真正流行起来。”
“美国微信”能成功吗?
彭博社曾报道称,马斯克希望推特成为像微信或者【【微信】】一样的产品,他一直在思考如何让推特变得“更有用”。
去年10月末被收购以来,推特已经在马斯克主持下大换血,主要收入源广告因大刀阔斧的改变元气大伤。
马斯克在完成收购交易几分钟后就“血洗”管理层,冻结并检查所有代码。为削减成本,马斯克已解雇约三分之二的推特员工。因为推特的认证系统以及内容审查变动,不少广告商“金主”逃离推特或是暂停在该平台打广告。今年1月媒体称,去年被马斯克收购以来,500多家广告商逃离推特,公司当前的日营收额较去年同期暴跌40%。
在最近发给员工的内部邮件中,马斯克承认推特当前的估值已经较他的收购价腰斩,降至200亿美元。但他坚信,推特的市值能增长十倍以上,有朝一日将达到2500亿美元。
至于要打造怎样的推特,马斯克去年不止一次提到微信这个好榜样。
在马斯克看来,微信是一个很好的应用程序,“如果你在中国,基本可以生活在微信里,它什么都能做到”。单独使用微信,用户就可以实现从线上通讯到线下打车一系列动作。他认为,这样的应用程序是非常有用的,它没有垃圾信息,用户可以发表评论,可以发布视频。重要的是,内容创造者可以获得收入分成。
但这一次,怀疑与担忧马斯克想把推特打造成“美国微信”的声音已经接踵而至。
在各类手机应用都相对成熟的美国等地,多数人并不看好微信模式能成功。微信之所以有且只有一个,最内核的因素是,这款APP的IM功能所承载的网络效应以及社交属性。然而,在美国,已经有许多不同种类的类似Facebook Messenger,Whatsapp,Snapchat,Telegram等支付和发送讯息的应用可供用户选择,全球市场亦是如此。
现实是,微信式的手机应用能否在中国以外市场成功,多年来移动互联网的发展,似乎已经给出了一个现实的答案。而推特之所以在竞争激烈的社交媒体市场,依旧占据重要的一席之地,很大一个原因是其公共舆论广场的属性。
重金布局AI
马斯克对于人工智能持保留态度似乎已经是一个公开的事情。
此前,他不止一次在公开场合称人工智能是一项危险的技术。就在几周前,他还和人工智能研究界和产业界的大佬们一起发布了一篇呼吁暂停半年AI大模型训练、加强AI技术监管的公开信。
但最新消息显示,马斯克最近为Twitter购买了1万个GPU用于推进一个全新的AI项目,极有可能正在开发自家的大语言模型。除此之外,马斯克最近还在人工智能领域各种挖墙角,大有一种要大干一场的架势。?
鉴于不久前马斯克刚表示Twitter“缺钱”,每年需要花费大约15亿美元来偿还债务,分析认为,Twitter此次购买这些GPU主要就是为了用于生成式人工智能的开发,毕竟如果不是为了AI训练,Twitter也实在没有理由在数据中心级GPU上花费这么多钱。与此相对应的是,在 2020年微软建造了一台超级计算机专供OpenAI使用,那台计算机也就正好用了一万台GPU。
客观来看,Twitter完全有基础去开发自己的大语言模型,Twitter可以说是近几十年来拥有数据量最多的公司之一,它可以基于自身的海量数据进行训练。
马斯克将考虑如何在Twitter使用AI技术目前还不清楚,有人猜测可能会用于改进Twitter的搜索功能或帮助拓展广告业务,但不少人认为,基于马斯克最近对Twitter的一些表态和整合动作来看,此次斥重金在AI上的布局恐怕正是为了加速他的“万能应用”计划。
除了为Twitter的斥重金购置硬件设备之外,最近马斯克还在人工智能人才争斗战中狠下功夫。
早从今年2月开始,马斯克被曝出就一直在人工智能领域物色人才,计划招募一支人工智能研发团队来组建一个新的研究实验室,直接目标就是要跟OpenAI的ChatGPT展开竞争。
报道显示,目前马斯克至少已经从谷歌旗下的AI研究公司DeepMind挖到了两位高级工程师,并已经在3月加入Twitter。其中Igor Babuschkin是DeepMind AI部门的资深研究员,此前也曾在OpenAI工作过,是ChatGPT项目团队的成员,目前将负责Twitter的类ChatGPT产品的开发。另一位Manuel Kroiss是DeepMind的6年老员工,目前担任Twitter新的软件工程高级总监。
来源:微信公众号“财智头条”综合自:澎湃新闻、每日经济新闻、第一财经、界面新闻等
责编:袁凯
校对:风华
审核:龚紫陌