AI投资时间丨创世伙伴CCV梁宇:通用人工智能奇点时刻到来 商业化应用仍处于前夜
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
今年以来,ChatGPT的火爆出圈正引领新一波的AI浪潮。从国外的谷歌、微软、Meta,到国内的百度、阿里、腾讯、字节跳动,各大科技巨头纷纷加入这场AI军备赛。
能够带来伟大成就和巨量财富的地方,时常伴随着创新创业热潮的翻涌。王慧文、李开复、王小川等在科技领域、创投领域富有号召力的大拿们悉数登场,将这份AI创业的“英雄榜”变得越来越长。
其实从1956年人工智能的概念首次提出以来,人工智能行业经历过多次从高潮到幻灭的过程。此次ChatGPT的出现,再次让大家内心受到震撼。不少创投圈人士对记者表示,AI大时代所带来新鲜感和振奋感,比十年前移动互联网时代到来时还要更加强烈,而这或许也是诸多业内大咖选择跳出舒适圈奋力一搏的主要原因。
“我们惊叹于AI大语言模型的能力,让人工智能比以往任何时候都更接近人类、更加智能化,这让我们充满期待。”近日,创世伙伴资本CCV合伙人梁宇在接受21世纪经济报道专访时说。
在他看来,现在是通用人工智能(AGI)的奇点时刻,同时也是商业化应用的前夜。AI大模型还没有经过大量的商业包装和训练,需要从业者像园艺师一样去修剪,形成符合行业规律的商业化产品,这也正是创新创业的机会所在。
创业门槛急剧拉高,机构出手更加谨慎
《21世纪》:业界许多人把今年称之为AGI元年,您怎样看待ChatGPT所引领的这波AI新浪潮?
梁宇:倒推来看,2017年是真正的AI元年。当时Google团队发表论文《Attention is All You Need》,该论文提出了一种新的网络架构,称为Transformer.它仅仅采用注意力机制,不需要循环或卷积。
此前,机器学习的主流方法是深度神经网络带监督的学习。这篇论文出现以后,方法论开始转向。ChatGPT的GPT模型、谷歌的LaMDA大模型和百度的文心大模型都是基于谷歌的开源Transformer模型,在其基础上不断迭代。一直到OpenAI蛰伏五六年后,率先推出现象级应用ChatGPT。
其实内心最受震撼的不是普通用户和投资机构,而是产业人士。在上一波的人工智能创业浪潮中,大家预期很高,但实际产品效果根本达不到。一直到去年,很多人内心是存绝望的,也找不到突破的方向。ChatGPT出来后,大家才醒悟过来,原来人工智能可以做到这个程度,美国硅谷的热闹程度比中国还要早六个月左右。
《21世纪》:2016年AlphaGo打败李世石是上一轮AI创业热潮中的标志性时间节点,后来国内也出现AI四小龙等明星创业公司。现在我们再次看到很多投资界、创业界人士进入AI领域创业,这两轮热潮有哪些不同?
梁宇:首先,这一轮AI创业的目标更加精确。上一轮的AI创业大致集中在两个方向,机器视觉和无人驾驶,大家基于想象,不知道真正的工程能力能做成什么样。这一轮的创业更加聚焦,OpenAI给大家打了个样,所有的人才和资源都在向大语言模型的方向聚集。
第二,这轮AI创业的门槛被急剧拉高。构建大模型的算力成本更高,同时对底层大模型有真知灼见的算法人才非常稀缺。当然,经过上一轮AI产业的大浪淘沙,成功的创业者积累了深厚的根基,失败的创业者也积累了足够的经验,整体创业者的素质会更高。
第三,大环境本身也发生了很大的变化。上一轮AI创业热潮中,政策市场和创投市场环境都更加开放。现在创业者和投资机构都变得更加理性,有些人确实是在上一轮的狂欢中被伤到了。
现在凡是跟AI沾边的公司估值都比较高,因为需要的投入确实很大,行业天花板都很高,行业中也会有人去追逐高估值。但优秀创业者和优秀投资人的结合还是比较理性的,我们不能脱离事实的想象构建商业未来。整体来说,目前还是Gartner曲线(技术成熟度曲线)向上爬坡的前夜,大家都很兴奋,对产业的未来充满期待,但出手比较谨慎。
国内大模型追赶ChatGPT仍需时间,应用层创业机会更多
《21世纪》:您是否看好国内的类ChatGPT应用?跟OpenAI相比,国内做大语言模型的团队差距主要在哪些方面?
梁宇:我们是非常看好国内AI创业的,相信在中文语言环境和法律法规下,一定会出现中国的类ChatGPT应用,它们在中国市场也会更具竞争优势。但跟OpenAI相比,国内团队做大语言模型在三方面仍存在差距。
首先是经过优秀标注的数据集。目前中文数据集还在追赶阶段,随着业界共同努力,花钱、花时间来做这件事,这是能够赶上的。
第二是算力层面。去年,美国政府要求芯片厂商英伟达停止向中国销售部分高性能GPU芯片。这种对算力的封锁,拉长了大模型训练的时间。
第三是算法层面。语言模型能否做到像OpenAI那么智能,算力并不是最重要的因素,最重要的是算法层面。语言模型该怎样调参才能达到好的效果,这有点像可口可乐的秘方,需要不断的探索和研究。
更重要的是,我们希望大模型公司可以把平台留给开发者,就像IOS做的一样,让应用层参与者更多去做垂直领域的事情。如果这件事实现了,中国就很有优势。因为中国的公司在应用场景的开发上,在应用场景的丰富度上是远远超过美国公司的。中国公司在应用场景丰富度开发上和商业落地上,是走得非常快的。
《21世纪》:目前国内语言大模型市场的竞争格局是怎样的,您看好哪一派?
梁宇:首先是百度、阿里、腾讯、字节跳动等巨头公司。大厂的优势在于他们有实力不断投入资金、资源,有可能最先形成数据飞轮。
第二是国内一些技术实力雄厚的研究院。比如创世伙伴CCV聊过的两个团队,一个是北京智源人工智能研究院,他们几年前就开始专注在做语言大模型,语言训练的效果非常出色。2019年,他们成立了独立公司智谱AI,由清华大学唐杰教授担任首席科学家。另一个是沈向洋博士创立的IDEA研究院(粤港澳大湾区数字经济研究院),同样具有竞争力。我们很欣赏这种在大模型上扎实做了几年研究工作的公司。
第三,大家看到的王慧文、李开复、王小川等创业老兵,同样有机会做这件事。在科技领域、创投领域有影响力的人进军这个市场,能够帮助中国市场快速产出有价值的大模型。越是在竞争的环境中,创业企业的进化是越快的。
《21世纪》:我们注意到还有些公司基于数据集、算力、算法方面的困难,会战略性放弃做语言大模型,而是在特定的领域做相对的小模型,您怎么看待这件事的前景?
梁宇:大语言模型市场的竞争确实已经进入到白热化阶段,我认为除了百度这样的巨头之外,还会诞生一两家大语言模型公司。对大模型的投资是具备高风险、高天花板的,也是值得投入的,我们会支持跑在前面的大语言模型创业者。
同时值得注意的是,当百度、阿里等大公司专注在语言大模型战场时,基于Transformer的小模型对创业公司来说是更富有机会和商业前景的,我们也很关注这个领域的投资机会。
比如横向来看,在美国有家AI绘画公司Midjourney,它的底层模型是以文生图的模型,目前已经是10亿美元估值的独角兽公司。除了图片,3D领域的3D模型、3D环境生成,以及声音、视频领域同样富有机会,市场中还没有形成领头羊的局面。
纵向来看,做独立语言模型的公司必须跟产业结合才能拿到精确的数据,去帮助训练各种场景,这是未来商业化的根基。医疗、金融、汽车、游戏场景都具有产业机会,能够形成产业壁垒。
创业团队须兼具商业化能力和底层模型研发壁垒
《21世纪》:在ChatGPT所属的AIGC领域,创世伙伴资本近年做了哪些投资?
梁宇:在AIGC爆发的前夜我们已经投资了一些公司,他们所做的事情可以归为AIGC领域。比如我们在2017年A轮领投玩美移动PERFECT,这家公司成立于2015年,是一家人工智能(AI)和增强现实(AR)美妆与时尚技术商业解决方案提供商,去年已经在纽交所上市。玩美移动在3D空间生成人脸,为企业和消费者提供虚拟试妆及智能肌肤侦测等服务。
另外,我们还投资了AI医疗公司数坤科技,目前正在IPO进程中。它用自创的底层模型大量阅读CT影像和MR影像,生成人的数字三维模型。延伸来看,我们在垂直的无人车感知、3D环境生成领域也在进行投资。对我们来说,AIGC将是今年非常重要的投资赛道。
《21世纪》:在具体投资过程中,您倾向于投资什么样的创业团队?
梁宇:我们非常看重公司的产品商业化能力和行业认知,它要知道如何设计垂直领域的产品,如何抓住用户、增强用户黏性。同时在这个基础上,公司还需要在底层模型上有自己的研发能力,建立起高壁垒。
比如美国有一家成立两年的公司叫Jasper,它的底层技术模型来自ChatGPT,基于它进行产品化,做自动营销文案生成。Jasper的应用反馈情况非常好,很多文字工作者愿意付费订阅,公司也很快成长为独角兽公司。但ChatGPT出来以后,这项服务免费提供给用户,Jasper的价值是急剧下降的,它向用户收费变得不再容易。
所以创业公司要有自己的模型能力,否则即便前端应用包装得再好,当大象稍微踏过来一脚,它的脚指头就把你踩死了。当底座足够扎实,即便遇到浪的冲击,也没那么容易被击倒。
另外,创业者要理解产业,积累在垂直领域的数据。如果能够得到国家队的支持,获得来自政府的数据资源,或许能够真正帮助公司实现腾飞。比如政府部门有行政数据、公民数据、医疗数据等,这些数据脱敏之后开放给公司,将帮助语言模型训练得更好。
(文章来源:21世纪经济报道)
一张图说明chatgpt有多火 如何让chatgpt生成长文
一张图说明你的专业,一张图说明膝盖疼痛部位的,一张图说明男人的地位图片,一张图说明小腿疼痛部位的自从今年ChatGPT引爆了全球AI应用后,墙内的我们不止一次发问,为什么我们造不出ChatGPT呢。当然,有很多的UP引经据典说了一大堆,基本最后的结论就是国内的科研环境不好,所以搞不出ChatGPT是正常的。
一开始我也是这么认为的,但当我所在的公司为了蹭GPT的热度,在不投人不投资源的情况下,作为打工人的我们不得不去搜遍各种路径之后,我却发现,我们也许没有想象中那么差。当然,我们不能抛开事实不谈,有差距我们要承认,ChatGPT的诞生,有偶然但更多的是必然,OpenAI没有推出来,谷歌也会推出,甚至清华也会推出来,当然,蹭热度的就不算了。
至于这么说的原因,且听我细细说来。
大语言模型的起源
以史为鉴,可以知兴衰,所以,让我们先往回看。大语言模型是自然语言处理领域的一个重要方向,很多人应该都了解这一点,其发展历程可以追溯到几十年前的早期研究。其经历了以下几个主要里程碑:
20世纪60年代:科学家开始研究基于规则的自然语言处理方法,即使用规则手动编写程序,以实现自然语言的分析和生成。
20世纪80年代:出现了基于统计机器学习的自然语言处理方法,如隐马尔可夫模型和条件随机场等。这些方法可以自动地从大量语言数据中学习概率模型,并利用这些模型进行语言分析和生成。
2013年:谷歌推出了语言模型Word2Vec,将大规模语料库中的单词映射到低维向量空间中,从而实现了单词之间的语义关联。
2015年:微软研究院推出了深度神经网络语言模型(Deep Learning Language Model,DLM),该模型利用多层神经网络学习语言的概率分布,并取得了显著的性能提升。
2018年:OpenAI发布了一种名为GPT(Generati【【微信】】rmer)的基于Transformer架构的语言模型,它使用无监督学习的方法预训练模型,然后通过微调进行各种自然语言处理任务的处理。
2019年:OpenAI发布了GPT-2,它比GPT更大、更强大,可以生成高质量的自然语言文本,甚至可以用来写出类似于人类写作的文章。
2020年:OpenAI发布了GPT-3,它拥有1750亿个参数的庞大规模,是目前公开发布的最大规模的语言模型。它可以用于各种自然语言处理任务,并在自然语言生成方面取得了重大突破。
是的,你没看错,GPT-3模型2020年就已经被OpenAI给训练出来了。只不过,当时仍旧是处于实验室研究阶段,哪怕是今年3月开始火爆全网的GPT-3.5其实在去年9月份就已经上线。
上一个引起类似的事件还是2017年的AlphaGO,但其造成的影响远没有ChatGPT来的深远,原因暂且不提,我们要关注的是同年另一件事。这一年有一篇震惊整个机器学习界的论文横空出世――《attention is all you need》。
在这篇来自于谷歌的研究中,开创式地只使用attention(注意力)机制来构建模型,并且不仅仅在NLP领域,在其他机器学习领域效果也非常惊艳。就是这个目前机器学习领域绕不开的transformer结构,奠定了目前各大公司搜索、推荐的基石,可想而知它带来的影响力。
transformer效果惊人,自然引起了各大科研机构以及公司的注意,OpenAI也不例外,注意,此时OpenAI还是一家创业公司,虽然背后有如马斯克等几位大佬的支持,不得不佩服马斯克的眼光,但此时其实力远比不上被微软收购之后。时隔不到一年,谷歌和OpenAI各自基于transformer模型又发表了两篇非常经典的论文。谷歌提出了Bert,OpenAI提出了GPT,两家长达5年的纠缠开始。
OpenAI与谷歌的恩怨情仇
Bert和GPT这两种底层结构都是基于Transformer,区别在于Bert是双向的语言模型,而GPT是单向的。正常人都能看出,Bert的结构是要优秀于GPT的,事实上工业应用也是如此。在今年之前,有多少人听说过GPT模型。
那为什么最终在2023年,GPT却迎头赶上,并越甩越远呢。唯一的理由,那只能说是,不愧是谷歌。谷歌这家公司很有意思,往往最新、最具前瞻性的技术都是他提出来的,但又总是被模仿者超越,比如安卓系统、比如机器学习。在5年前的NLP领域,江山是属于Bert的,但有道是打江山易,守江山难,领先于时代的性能,让谷歌没有迭代Bert的动力,但GPT却在角落里默默发育。
不久后,GPT-2推出,性能远超GPT-1,但依然比不上Bert,而且随着参数规模的激增,数据集加工以及模型训练需要的成本也越来越高。OpenAI一度只能在开源社区接受资助才能勉强存活。2019年,微软看重了它的潜力,“你的模型不是受制于硬件潜力发挥不出来吗,交给我”,10亿美元的投资让OpenAI翻身。
2020年,GPT-3问世。相比于GPT-2模型的15亿参数,GPT-3提升到了1750亿,是Bert模型的两千多倍,单次训练的成本就高达460万美元。3月份开始大家所熟悉的GPT-3.5的参数同样是1750亿,所以,可以看出,2022年9月份上线的GPT-3.5并没有任何技术上的提升,其主要核心在于交互端的应用。
好一出潘磕嫦高富帅的剧本是不是?其实不然
2020年谷歌仍然是领先的,ChatGPT的大火是2022年底。而且,谷歌在这期间并不是没有进步,作为全球最大搜索引擎的持有者,哪怕是实验性质的研究,其结果也不能小觑。对于互联网大事件有关注的朋友应该还有印象,前两年,有这样一篇报道一度引起互联网大震荡。
一位谷歌人工智能伦理研究的员工与LaMDA对话之后,察觉LaMDA有自我意识。于是他给谷歌的高层写了一封邮件,结果没有得到回应。于是他对外公布了与AI的对话内容,最终被带薪休假……
是不是有点印象,那是2021年5月,谷歌当时就推出了智能问答AI――LaMDA。
在报出上述新闻后,该产品迅速销声匿迹,以至于今年ChatGPT大火之后, 谷歌要重新开始搞Bard。
这是因为当时这件事情引来了广泛的关注,甚至连谷歌的股价都受到影响,但不像是ChatGPT,几乎是一路好评到现在才开始受到人们的担忧。在当时,各界人士几乎是一致恐慌,也许是出于担心影响谷歌搜索引擎的主营业务,在发布会之后的一年半时间内,LaMDA一直没有向大众开放,直到年底ChatGPT 3.5的发布,引起了关注狂潮。尤其是和bing搜索能力的结合,对谷歌搜索业务产生了巨大挑战。谷歌这才仓促推出了Bard AI,不仅发布会翻车,并且实际体验效果也很糟糕,比起文心一言都有差距。
说了这么多,这里面好像没中国什么事,难道我们连背景板都称不上?其实不然
中国在大语言模型领域的发展
中国在大预言模型或者自然语言处理领域差距是很明显的,这毫无疑问,原因又很多,网上随便找几个视频,几篇文章,能给你列的清清楚楚。我想说的,是一些偏事实的东西,首先还是看看我们在自然语言处理领域的发展历程:
1990年代,中国开始在自然语言处理领域进行研究,主要集中在词汇处理、句法分析、语义分析等方面。
2000年代,中国开始在机器翻译、信息检索等领域积极探索,获得了不少的研究成果。
2010年代,中国在自然语言处理领域的研究得到了进一步的发展,主要集中在面向深度学习的新算法、数据集和工具的研究与开发。
2015年,中国的科学家开始在大规模预训练语言模型领域开展研究。
2018年,阿里巴巴首次发布了中文自然语言处理模型BART,并在很短的时间内就取得了较好的效果。
2019年,百度发布了中文自然语言处理模型ERNIE,成为国内首个达到SOTA水平的模型之一。
2020年,中文自然语言处理模型BERT的中文预训练模型“Chinese BERT”在多个任务上创造了最新的SOTA效果,证明了中国学者在大规模预训练模型领域的实力。
中国在自然语言处理和大语言模型领域的发展历程可以追溯到20世纪80年代。当时,中国开始进行语音识别和机器翻译技术的研究,这些技术的初步应用主要用于军事和国防领域。
随着计算机技术的不断发展,我们开始逐步加大在自然语言处理领域的投入和研究。1992年,中国的第一本机器翻译专著《机器翻译》由中国科学院出版社出版,标志着中国机器翻译技术的发展进入了一个新的阶段。
在大语言模型方面,很明显,我们的研究和发展相对晚很多。实际上直到2018年,国内才有一些科技公司和研究机构才开始加大在大语言模型领域的研究和投入。例如,科大讯飞在2018年推出了自己的超大规模语言模型“讯飞开放平台”,并在2020年推出了规模更大的“超脑5.0”,在语音识别、机器翻译等领域取得了不俗的成绩,2021年3月,华为发布了自己的大语言模型“华为鲲鹏”,参数规模超过了1.2万亿,成为当时世界上最大的语言模型。哪怕是我们一直吐槽的百度也在大语言模型领域进行了一系列的研究和实践,并推出了自己的大语言模型――Elastic-Weight-Consolidated Transformer(ELECTRA)。
在学术领域,我个人觉得,有两项研究同样具有很有意义,第一篇是2019年来自于哈工大讯飞联合实验室发布中文BERT-wwm-ext预训练模型,它的出现,可以说是开拓了中文Bert的基础。另一篇则是在2022年三月份发布的GLM模型,由清华大学发表的论文《GLM: General Language Model Pretraining with Autoregressi【【微信】】》提出,而由这篇论文发展出的ChatGLM,才是中文ChatGPT的希望。也是我们下一章要介绍的重点。也是我反驳中国造不出ChatGPT是因为科研环境问题的来源。
类ChatGPT的发展
在聊到ChatGLM前,我们首先要意识到,ChatGPT本身并不是诞生于科研,它甚至不能被认为是一个新技术,或者是新的研究成果。它更多是一次AI在应用领域勇敢并且成功的尝试,而且前面也提到,由于其巨量的参数,ChatGPT单次的训练以及维护成本高的吓人,需要消耗海量的资金,因此有很多所谓的公知在那里说各企业舍不得花钱倒也没瞎说,毕竟,国内那几家所谓的大厂,除了阿里,能认真沉淀并做研究的也的确没几家。但要说所有高校舍不得花钱以及能力不行,就纯属为了黑而黑了。
篇首我就有提到,为了完成工作,我在查找开源资源时,从Hugging Face上发现了ChatGLM,进而找到了ChatGLM的blog,你没看错,它没有官网,也几乎没有宣传。
ChatGLM 显然是采用了 ChatGPT 的设计思路,但它是不同于 BERT、GPT-3 以及 T5 的架构,是一个包含多目标函数的自回归预训练模型。由其基础架构GLM形成的GLM-130B(1300亿参数)也有一些独特的优势。
双语:同时支持中文和英文。
高精度(英文):在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM-176B。
高精度(中文):在7个零样本 CLUE 数据集和5个零样本 FewCLUE 数据集上明显优于 ERNIE TITAN 3.0 260B 和 YUAN 1.0-245B。
快速推理:首个实现 INT4 量化的千亿模型,支持用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行快速且基本无损推理。
可复现性:所有结果(超过 30 个任务)均可通过我们的开源代码和模型参数复现。
跨平台:支持在国产的海光 DCU、华为N腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。
2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2,GLM-130B 是亚洲唯一入选的大模型。在与 OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中,评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平,鲁棒性和校准误差在所有千亿规模的基座大模型(作为公平对比,只对比无指令提示微调模型)中表现都很可观。
当然,虽然清华大学没有承认ChatGLM是由他们研发的(可能涉及到一些知识产权),但其底层架构却是来自于GLM就是上一章尾所提到的论文,所以懂得都懂。
上文提到的GLM-130B并没有相应的应用开源,但他们开源了一个ChatGLM-6B的版本,在Hugging Face 和魔搭上都有相应的应用,可以免注册体验,就智能程度来说,和ChatGPT没得比,毕竟参数差距太大,但就问答交互来说,可以预见的GLM-130B是能达到3月初ChatGPT-3.5能力的,只是我们现在没那个条件启动GLM-130B(8张A100),所以没法测试。
那么只有清华这座中国最好的学府有能力造出类GPT的模型吗,我们不得而知,但可以看一组来自Aminer和智谱《ChatGPT团队背景研究报告》的数据展示,揭秘了ChatGPT背后的87人团队中,有9位来自于中国,基本上都是来自于清北华科。
为何我们的Chat发展好像不如人意
所以,我们并不是造不出ChatGPT这样的应用,也不是没有GPT这样的模型,甚至,在资源受限的情况下,我们依然有着GLM-130B这样的成果。理论上也不缺人才。那么真实的原因是什么呢?
好像找不到标准答案,但细究原因,我觉得和国内的大公司现况有关。国内公司的状况很有意思,体量越大,创新就会越来越低,然后和国外不同的就是,国内越大的企业,越倾向于通过垄断地位去压制市场创新,实在压制不住,就会想办法收购或者参股,所以,近几年能够突出重围的企业很少,字节和米哈游算是为数不多的例子,这也是为什么一旦突围会迅速成长的原因,因为同类型的企业已经被大厂给压制完了。而这些体量大的企业,往往没有生存压力,组织架构非常稳定,因此爆发力和研究能力普遍较低,大公司病严重。
但不是说国内完全就一潭死水,热衷于改革自己的阿里在这一领域其实贡献非常多,早两年他们就已经把GPT2模型的参数推到了20多亿,GPT3也是国内最早进行中文参数训练的,但奈何没有研发出自己的框架,训练的模型再好,也不能商用。
ChatGPT的火爆造成了强大的虹吸效应,又因为一些不可描述和国内部分企业小丑式的跟风,国内自媒体无底线的贬低,以至于我们觉得只有OpenAI能实现这种类人式的大语言模型。实际上,2023年在AI发展史上绝对称得上是浓墨重彩的一年,不仅仅是国外,国内亦如此。
不要困在被人为编织的信息茧房里,去求证,去思考,与君共勉!