量子计算大神Aaronson加盟OpenAI!他还是姚班学霸陈立杰导师
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
国内大厂的大牛纷纷离职,转投高校,自创业。
偏偏与众不同的是,量子计算大牛Scott Aaronson现在要从教学阵地转移大厂了!
今天,Aaronson在博客上表示,自己将从德克萨斯州大学奥斯汀分校(UT Austin)休假一年,并在下周去OpenAI工作。
他的工作职责是思考人工智能安全和对齐(AI Safety and Alignment)的理论基础。
其中就包括思考像「计算复杂性对于如何让人工智能做我们想做的事情,而不是做我们不想做的事情的原则性有什么理解」这样的问题。
OpenAI的机器学习研究员,人工智能对齐团队负责人Jan Leike表示,「非常期待和传奇人物Scott Aaronson一起工作。」
【【微信】】迎量子计算大牛
可以说,OpenAI迎来了一位「居家办公」的BIG Name。
怎么讲?
Scott Aaronson表示,「出于家庭原因,我将主要在德克萨斯州的家中进行这项工作,但也会时不时地前往位于旧金山的OpenAI办公室。」
在OpenAI工作期间,Aaronson还会花30%的时间继续管理奥斯汀大学的量子信息中心,与他的学生和博士后一起工作。
到今年年底,Aaronson计划重新回到全职教学、写作和思考量子问题的岗位上。也就是说,他去OpenAI只是体验一年的工作生活。
对于Aaronson来说,即便在人工智能以我们都无法忽视的方式统治着世界之际,量子问题仍是其生活中最主要的爱好。在他转向研究量子计算之前,人工智能曾是Aaronson作为博士生开始研究的领域。
话说,Scott Aaronson到底要在OpenAI做什么样的项目?
他承认暂时没有头绪,因此需要花一整年时间去思考,并提出了几种可能性。
首先,他可能会得出一个关于样本复杂性的一般理论,以便在危险环境中学习。
其次,可能会致力于机器学习的可解释性:当给定一个产生特定输出的深度神经网络,对为什么产生该输出而进行解释;对于找到该解释的计算复杂性,我们能说些什么?
第三,可能会研究弱智能体验证强智能体行为的能力。
有网友直接问道,你是否应该担心OpenAI只是雇佣你为了说「看,我们有Scott Aaronson在解决这个问题,而不是真正关心它的安全研究人员想出了什么」?
Scott Aaronson称,「我自己没法证明你自己担心的这个问题。无论我在这个主题上做什么工作,都必须为自己说话。」
Scott Aaronson目前是德克萨斯大学奥斯汀分校计算机科学David J. 【【微信】】. 百年纪念教授,担任学校量子信息中心创始主任。
Aaronson曾在康奈尔大学获计算机科学专业学士学位,在加州大学伯克利分校获博士学位,在加拿大滑铁卢大学量子计算研究所做博士后研究员。
此前,他曾在麻省理工学院(MIT)教了9年的电子工程和计算机科学。
他2007-2016年在MIT任教,2007 年秋任助理教授,2013年春晋升为副教授。直到,2016年至今在德州大学奥斯汀分校任教,任全职教授。
姚班学霸陈立杰在MIT交换期间,曾师从Aaronson。
图源:清华大学
无人不知 Scott Aaronson
Scott Aaronson可不是一般人。
1981年,Aaronson在美国出生。
他儿时的经历算是比较丰富。虽说他从小就在美国生活,但是他的父亲在他童年的时候被派往了香港工作。于是,Aaronson也跟着在亚洲度过了一段时光。
那时,他在亚洲的学校就彰显出了聪明才智――他跳级了。
可惜,不知道是水土不服还是什么原因,回到美国以后,他的求学之路就变得非常坎坷。
他经常与老师发生冲突,成绩也变得不尽如人意。
最终,他报名了Clarkson学校,这是一所由Clarkson大学为有天赋的年轻人开办的项目,该项目让Aaronson在高一那年就可以申请大学。
也是因为这个契机,他被康奈尔大学录取,并且在2000年获得了计算机科学的学士学位。
拿到学位后,他没有放弃求学,继续奔赴加州大学伯克利分校攻读博士学位。最终,2004年,他在Umesh 【【微信】】教授手下拿到了博士学位。
实际上,Aaronson的技能点从小开始就点满了。他的数学能力和同龄人相比超乎寻常的优异,他在11岁那年自学了微积分。
甚至,他在11岁那年发现了有计算机编程这么个玩意儿之后,懊恼自己没有早点开始接触,觉得自己已经和「编程多年」的「同龄人」落下太多。
而之后,他在更高层的技能树上点到了量子计算这个分支。在康奈尔大学,他致力于研究计算复杂性和量子计算这两个部分。
他的努力和天赋也给了他足够的回报。
2021年4月,美国计算机协会(ACM)将2020年的ACM计算奖颁给了Aaronson,以表彰他在量子计算领域所作的贡献。
具体来讲,他的研究领域包括量子计算机的性能与局限,更广义的计算复杂度理论等。
ACM介绍道,量子计算的目标是利用量子物理学定律来构造设备,以解决经典计算机无法解决或者无法在任何合理时间内解决的问题。
而Aaronson向我们展示了计算复杂性理论的研究结果如何为量子物理学定律提供新的见解,并且清楚地说明了「量子计算机能做什么,不能做什么」。
不仅如此,Aaronson还帮助发展了「量子霸权」概念。量子霸权是指,当一个量子设备能够在合理的时间内解决一个经典计算机无法解决的问题时,就达到了一个「里程碑」。
Aaronson建立了许多量子霸权实验的理论基础。这种实验让科学家们能够给出令人信服的证据,证明量子计算机能够提供指数级的加速,而不必首先建立一个完整的容错量子计算机。
ACM总裁Gabriele Kotsis表示,「Aaronson的贡献并不局限于量子计算,在计算复杂性理论和物理学等领域也产生了重大影响。」
值得一提的是,Aaronson还著有《德谟克利特以来的量子计算》。
他的个人博客「Shtetl-Optimized」经常从科普的角度解答一些关于量子计算的问题,一直广受欢迎。
他撰写的《谁可以命名更大的数字?》一文在计算机科学学术界中得到了广泛传播,文中使用了 Tibor Radó 所描述的 Busy Bea【【微信】】 的概念来说明在教学环境中可计算性的局限性。
如今,这么一个牛人来到了OpenAI,可以说是来了位精兵强将。
网友热评
Scott Aaronson宣布即将加入OpenAI工作后,许多网友为他送去工作顺利的祝福。
为了纪念这一刻,网友用DALL・E为Scott Aaronson生成了一幅画。
有网友与其探讨了人工智能对齐问题,
请解释下,当人类自己认同这些价值观是什么时,人工智能如何与人类价值观对齐?并且通常情况下,人类并不会与自己所声称的价值观保持一致。
在我看来,这证明了关于对齐或安全,或其他什么的基本思想范畴不是道德哲学,也不是计算复杂性,而是进化理论。也就是物竞天择。由于进化论有数学基础 (可参见John Baez) ,我认为可能存在一些与比较复杂性相交的情况。
虽然我不是这两个领域的专家,但从进化的角度来看,人工智能是否具有能动性或者一致的问题可能很重要,但不是核心。
还有崇拜Aaronson课程的网友问道,「您还会在UT教授2022-2023学年的量子信息科学课程吗?我真的很期待上这门课!」
以上就是量子计算大神Aaronson加盟OpenAI!他还是姚班学霸陈立杰导师的详细内容,更多请关注php中文网其它相关文章!
重复造轮子的百模大战:两极热,中间空
重复造轮子的意义,重复造轮子的机器,重复造轮子什么意思,重复制造轮子“不敢下手,现在中国还没跑出来一家绝对有优势的大模型,上层应用没法投,担心押错宝。”投资人Jucy(化名)向光锥智能表示,AI项目看得多、投的少是这段时间的VC常态。
ChatGPT点燃AI大爆炸2个月中,中国一直在等待自己的GPT-3.5。
AI真的冒犯到了打工人。游戏团队替代掉30%的原画师、电商团队用AIGC生成低成本数字人模特、基础程序员也感受到了被降维打击的焦虑......眼看着GPT在国外要将所有领域都重新做一遍的趋势,科技颠覆裹挟着金钱的味道滚滚而来。
于是,除了焦虑的打工人,企业急着用大模型降本增效,创业者急着接入大模型推出新产品,股市急着用ChatGPT概念割韭菜,培训机构更是先赚一波为敬。
衬托之下,反而显得喜欢追逐风口的中国科技巨头们比以往更沉得住气。
果然,周期使人成长,公司也是。
终于,众望所归、望眼欲穿、姗姗来迟,4月第二周,中国也迎来了新一代大模型的密集发布。
继通义千问开放测试4天后,张勇在接手阿里云后首次亮相,宣布所有阿里产品未来将接入“通义千问”大模型,进行全面改造;
商汤科技在10日的技术交流会上,演示了“日日新”大模型的能力:对话、AI绘画、编程、数字人,第二天开盘大涨9%;
华为盘古大模型在8日低调亮相,但并于10日发布新产品;
明星创业者王小川公开亮相,携手搜狗老搭档茹立云正式开启AI创业的新征程,将在下半年推出百川智能的大模型;
毫末发布首个自动驾驶大模型DriveGPT雪湖・海若,把人类反馈强化学习引入到驾驶领域。
就连游戏公司昆仑万维也赶来凑热闹,宣称“中国第一个真正实现智能涌现”的国产大语言模型将于17日启动邀请测试,但随后被媒体质疑其借热点炒作股价。
热热闹闹、真真假假,大模型一时竟然有点乱花渐欲迷人眼。中国的大模型怎么就一下子如雨后春笋般都冒了出来?如果不重复造轮子,大家还能干点什么?
虽然是摸着Open AI过河,但中国大模型也都迈入了无人区。
如果要为AI大模型找一个时间节点,2019年应该是关键的一个。
这一年2月,远在大洋彼岸的OpenAI推出了GPT-2,恰好也是这个时间点,微软慷慨的投入了10亿美元,让OpenAI从“非营利性”组织变成了“盈利上限”组织。
大概在一个月之后,太平洋的另一边,百度发布了ERNIE1.0,成为中国第一个正式开放的预训练大模型。
但这种第一其实有很多,比如华为的盘古大模型,业界首个千亿参数的中文语言预训练模型;比如阿里的M6,中国首个千亿参数多模态大模型;再比如腾讯HunYuan,国内首个低成本、可落地的NLP万亿大模型.....
总之,只要定语加的足够多,就总能在某个领域当第一。那段时间,从硅谷到北京西二旗、再从五道口到上海临港,包括华为、阿里、腾讯、商汤在内,凡是有能力的企业,都开始涉足AI大模型的相关研究。
但中国第一波AI大模型的“涌现”却是在两年之后。
2021年,曾任职过微软亚洲工程院院长、后被雷军亲自邀请到金山接替求伯君任CEO的张宏江,牵头成立的智源研究院发布“悟道1.0”,包括国内首个面向中文的NLP大模型、首个中文通用图文多模态大模型和首个具有认知能力的超大规模预训练的模型等等。
智源成立于2018年,也就是OpenAI发布GPT-1.0的前五个月,作为北京市和科技部牵头成立,并集合学界和头部科技企业资源的研究机构,智源其实是中国早期探索AI大模型的一个代表。
可以说,“悟道1.0”其实为中国后来所有AI大模型的一个样本。除此之外,智源研究院还为中国构建了大规模预训练模型技术体系,并建设开放了全球最大中文语料数据库WuDaoCorpora,为后来其他企业发展AI大模型打下了基础。
也正是在“悟道1.0”之后,中国大模型开始出现井喷的状态。
2021年,华为基于N腾AI与鹏城实验室联合发布了鹏程盘古大模型。2022年,阿里发布了“通义”大模型系列,腾讯发布混元AI大模型......
在中国AI大模型如雨后春笋般涌现的同时,国外的AI大模型也走到了从量变到质变的节点。
2022年11月,OpenAI发布了基于GPT-3.5的ChatGPT,彻底打开了人工智能的魔盒,然后就是席卷全球的AI 2.0浪潮。
事实上,如果以2018年GPT-1发布为节点,中国的AI大模型的发展与国外的发展脉络一直都亦步亦趋,但ChatGPT为什么并没有出现在中国?
这其实和国内外AI大模型两种不同的发展路径有关。
从目前国外具有代表性的AI大模型产品来看,比如ChatGPT、Midjourney、Notion AI或者Stable diffusion等等,都是以C端用户为基础的产品。
而反观国内,目前大模型的主要应用场景的都在B端。
比如阿里的“通义”大模型的典型应用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等等,而腾讯的HunYuan-NLP-1T大模型则应用在腾讯广告、搜索、对话等内部产品落地,或者像商汤的大模型,为自动驾驶、机器人等通用场景任务提供感知和理解能力支持。
之所以选择To B,一个重要的原因是,B端能够更容易进行商业化。
To B的行业特点导致中国的AI大模型并不需要做到非常大的参数规模,甚至于当ChatGPT出来之后,国内的公司讨论的一个重要方向,是如何将已有的大模型规模“做小”,应用到具体的行业上。
所以中国采用谷歌BERT路线的AI大模型会比较多,以更小的参数,做更有效率,更适合垂类的场景。
所以某种程度上,从出生的第一天,中国大模型就带着商业化的任务。
而国外To C的大模型则不同,如ChatGPT的用户在短短两个月就达到一亿,其底层预训练大模型GPT-3.5作为通用大模型,“大”成为参数的一个基本要求。
这在某种程度上促进OpenAI不停为GPT增加参数,然后激发更强大的“涌现”现象,最终实现“大力出奇迹”的ChatGPT。
因此,To B和To C两种完全不一样的发展路径,也将中国和美国的AI大模型引向了两种完全不同的发展方向。
到目前为止,中国已经发布的AI大模型产品已经发布了5个,而这之后,还有5个AI大模型产品正在赶来的路上。
模型大乱斗已经开始。
大部分国内的大模型能力都在GPT-2的水平上,但关注度却远远高于GPT-2推出时,这就造成了一种尴尬的局面――明知道还没有完全准备好,但却不得不积极地在推进模型发布,似乎稍微晚一点就会错过整个市场。
的确,无论是市场还是技术本身,都在要求企业更快地将大模型推向市场。
从技术上讲,越早进入市场就能越早地获得用户的使用数据,进而推动模型优化迭代。从市场角度而言,当国外AI大模型与产业结合带来更高效率的同时,国内企业也存在同样的需求。
比如目前,光锥智能向多个SaaS公司调研发现,几乎都已经接入GPT-3.5,目前在同步测试文心一言中。
而对于推出大模型的企业来说,这个时候抢占市场先机就变得尤为重要。
某头部机构负责AI的投资人告诉光锥智能,“中国现在被排除在ChatGPT生态之外是非常危险的。”
他认为,虽然应用层存在更大的创业机会,但应用层的所有应用却都依赖于大模型而存在。就像PC互联网时代,所有的桌面应用都基于Windows开发,而移动互联网时代所有APP又都基于Android或iOS系统一样,在模型即服务的时代,也需要出现一些“操作系统”级别的底层大模型。
目前国外GPT-4已经明确可以成为这样的存在,但国内还没有相应的大模型出现。因此,在底层大模型的格局还未明朗的情况下,一旦大模型的市场格局发生变化,建立在大模型之上的应用也将付之东流。
这也成为许多投资人不愿意现在就下场的原因,他们想让这个市场再跑一跑,等待一个明确能够成为“操作系统”级别的底层大模型出现。
所以,无论是百度还是阿里,在推出大模型之后,第一件关心的事就是――是否有更多企业能够达成合作。
比如,在2月份明确文心一言推出计划后,百度就开始积极推进不同行业的企业接入文心一言,到3月16日百度发布文心一言时,已有超过650家企业宣布接入文心一言生态。而在4月7日,阿里官宣“通义千问”之后,第一件事也是向企业开放测试邀请。
如今国内的AI大模型正处在竞争“谁能成为底层操作系统”的阶段,各家积极推出自己的大模型,开放内测,引导企业入驻,一个核心目标就是围绕大模型建立起自己的模型生态。
这是大厂能否在下一个时代继续成为大厂的关键。下一个AI时代的船票并不是大模型,而是围绕大模型建立起来的生态。
因此,即便所有人都在口口声声表示不要重复造轮子,不要浪费资源建立一个同样的大模型,但机会当前,所有人都在重复造轮子。
但如今从百度到阿里,再从华为到商汤,底层大模型的战争也才刚刚刚开始,毕竟不只是像腾讯、字节这样的科技巨头,还有像王小川、王慧文、李开复等创业大佬也在虎视眈眈。
王小川、王慧文都先后入驻搜狐网络科技大厦,五道口似乎又恢复了之前的荣光。
毕竟,许多人都感觉到,“这是一次文艺复兴”。
到目前为止,更多具有竞争力的玩家还没有完全下场,但底层大模型的“百团大战”却已经一触即发。
大模型让AI公司越来越重。
4月10日,商汤在公布“日日新SenseNova”大模型体系的同时,其实还提到另一个关键点,即依托于AI大装置SenseCore实现“大模型+大算力”的研发体系。
为了满足大模型海量数据训练的需求,原本可以轻装上阵的算法公司,开始自己做云,也自建人工智能数据中心(AIDC)。
另一个案例就是毫末,这家自动驾驶公司为了用大模型训练数据,也建了自己的智算中心。
这些垂类的AI巨头和独角兽,之所以要自己做的这么重,最重要的原因之一,就是市面上几乎没有高性能的现成产品可以满足。
近年来,大模型参数量以指数级的速率提升,而数据量随着多模态的引入也将大规模增长,因此就必然会导致对算力需求的剧增。例如,过去5年,超大参数AI大模型的参数量几乎每一年提升一个数量级。过往的10年,最好的AI算法对于算力的需求增长超过了100万倍。
一位商汤员工表示,商汤上海临港AIDC的服务器机柜设计功耗10千瓦~25千瓦,最大可同时容纳4台左右英伟达A100服务器,但普通的服务器机柜普遍设计功耗以5千瓦居多,而单台A100服务器的功耗即高达4.5千瓦左右。
科技巨头就更是如此,每个巨头都希望在自己的生态中形成闭环,一定程度上也是因为整个国内开源的生态不够强大。
目前,大模型产业链大致可以分为数据准备、模型构建、模型产品三个层次。在国外,AI大模型的产业链比较成熟,形成了数量众多的AI Infra(架构)公司,但这一块市场在国内还相对空白。
而在国内,巨头们都有一套自己的训练架构。
比如,华为的模型采用的是三层架构,其底层属于通识性大模型,具备超强的鲁棒性的泛化性,在这之上是行业大模型和针对具体场景和工作流程的部署模型。这种构架的好处是,当训练好的大模型部署到垂类行业时,可以不必再重复训练,成本仅是上一层的5%~7%。
阿里则是为AI打造了一个统一底座,无论是CV、NLP、还是文生图大模型都可以放进去这个统一底座中训练,阿里训练M6大模型需要的能耗仅是GPT-3的1%。
百度和腾讯也有相应的布局,百度拥有覆盖超50亿实体的中文知识图谱,腾讯的热启动课程学习可以将万亿大模型的训练成本降低到冷启动的八分之一。
整体来看,各个大厂之间的侧重点虽然有所不同,但主要特点就是降本增效,而能够实现这一点,很大程度上就是受益于“一手包办”的闭环训练体系。
这种模式在单一大厂内部固然有优势,但从行业角度而言,也存在一些问题。
国外成熟的AI产业链形成了数量众多的AI Infra公司,这些公司有的专门做数据标注、做数据质量、或者模型架构等。
这些企业的专业性,能够让他们在某一个单一环节的效率、成本、质量上都要比大厂亲自下场做得更好。
比如,数据质量公司Anomalo就是Google Cloud和Notion的供应商,它可以通过ML自动评估和通用化数据质量检测能力,来实现数据深度观察和数据质量检测。
这些公司就像汽车行业的Tier 1,通过专业的分工,能够让大模型企业不必重复造轮子,而只需要通过整合供应商资源,就能快速地搭建起自己模型构架,从而降低成本。
但国内在这一方面并不成熟,原因在于:一方面国内大模型的主要玩家都是大厂,他们都有一套自己的训练体系,外部供应商几乎没有机会进入;另一方面,国内也缺乏足够庞大的创业生态和中小企业,AI供应商也很难在大厂之外找到生存的空间。
以谷歌为例,谷歌愿意将自己训练的数据结果分享给它的数据质量供应商,帮助供应商提高数据处理能力,供应商能力提升之后,又会反过来给谷歌提供更多高质量数据,从而形成一种良性循环。
国内AI Infra生态的不足,直接导致的就是大模型创业门槛的拔高。
王慧文刚下场做光年之外的时候曾提出5000万美金的投入,这笔钱其实是李志飞为他算的,具体可以分为2000万美金搞算力,2000万美金找人,1000万美金做数据。这体现出一个直接的问题,如果将在中国做大模型比喻成吃上一顿热乎饭,那必须从挖地、种菜开始。
目前,在AI 2.0的热潮中,一个重要的特点就是“两极化”:最热门的要么是大模型层、要么就是应用层。而类似AI Infra(架构)的中间层,反而有很大的真空。
别都盯着造轮子,能造一颗好的螺丝也很重要。
王小川和百度的隔空口水战,成为最近大模型混战中一个热闹的插曲。
“高富帅”李彦宏认为,中国基本不会再出OpenAI,用巨头的就可以了。
“直男”王小川说,行业中有些人(李彦宏)对未来的观点从来就没有判断对过,一直活在平行宇宙里。
除了陈年恩怨,这大体上可以看作是巨头和创业者之间的立场对立:巨头都喜欢包揽一切,而创业者则喜欢打破常规。
而科技行业的成功似乎更依仗于创新。毕竟,从打造AlophaGo的DeepMind,到发布ChatGPT的OpenAI,没有一个是从巨头中孵化出来的。
这就是创新者的窘境。
对于科技巨头而言,自己造轮子固然重要,但能找到、孵化出下一个OpenAI又何尝不可呢?