阿米巴创始人王东晖 王东晖阿米巴
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
“做SaaS领域的投资,下手要早,下手要狠,”阿米巴资本创始人王东晖如是说。
随着Open AI给垂直领领域带来巨大红利,越来越多垂直SaaS 公司从“Software As a Service”飞跃成为“Software + AI As a Service”,软件自动化、智能化趋势带来的历史性机遇给王东晖和阿米巴资本带来了新的兴奋点。
2011年,王东晖辞去金山办公CFO的职务,创办了阿米巴自办,从他以往的经历中,似乎看不出他和投资有什么关系,他转做投资更多的是“非主流”心态驱使。
从小在北京部队大院生活的王东晖,本应该选择更稳定的体制内工作,过着循规蹈矩的生活。但他却一步步颠覆了固有的职业路线,开始了“非主流”的职业生涯。
在澳洲维多利亚科技大学修读工商管理硕士学位,1997年回国后,王东晖先后任职于安永会计师事务所和普华永道会计师事务所。
8年之后的2005年,王东晖又下了一步险棋,受邀加入金山软件先后担任首席财务官、高级副总裁以及公司执行董事。彼时,金山软件还是一个创业团队且正在经历业务巨大转型期。
在采访中他也坦言,金山软件是他最冒险的一站。对他而言,这是非常大的一次转型,不仅面临着降薪,还要和创业团队磨合,几乎是从0开始。但也正是在金山软件的六年时间,为他后来做投资奠定了基础。
王东晖告诉雷峰网,在金山软件时期要向雷军汇报工作,虽然2007年雷老板离开金山去做投资,但还会和他有沟通交流的机会,雷老板也会和我深度分享他的很多投资案例,让我对一家企业的了解有了非常多的思路。
抱着对改变世界和永恒不变的东西的渴望,2011年,王东晖辞去金山执行董事的职务并很快成立了阿米巴资本,至今王东晖已经带领团队投资了近200家创业公司,滴滴快的、纳微科技、威马电动车、蘑菇街、聚水潭、小药药、乐言、晓羊科技、百应、火眼云、Porotech等。
今年是阿米巴在资本市场的第十二年,回首过往,王东晖用四个字总结投资之道“相信、简单。”
怀着一颗对未知世界的好奇心,转做投资
雷峰网:从安永会计师事务所和普华永道会计师事务所离职后,为什么选择金山?
王东晖:选择金山很重要的原因是,认为金山是一家后台驱动的公司,相对来讲后台驱动什么都可以做,相比于其他公司金山软件更稳定,就去了。就是这么简单的一个逻辑。
雷峰网:您曾说,金山是你最冒险的一站,为什么?
王东晖:从四大会计师事务所出来真正进到科技公司做 CFO 的人非常少,因为从一个相对比较成熟的公司进入到金山软件这样的创业公司,首先要符合这个创业团队,就意味着要做一些取舍,我加入金山做CFO时已经35岁了,从各方面讲都是一个非常大的转型。
当时也有一些四大的同事去了科技类公司,大家都是撞的头破血流,所以对科技公司心里是有一些风险的意识的,其实当时是一个比较保守的状态,但是因为好奇心驱使,以及想打开自己的边界,还是去了科技公司。
雷峰网:正是这种好奇心,驱使你后来有了创业的想法吗?
王东晖:一是跟性格有关系,我本来就好奇心强,有探索精神。对改变世界和永恒不变的东西,都有一个特别大的渴望。这是天性使然,我从小就喜欢非主流,就不想做特别主流的事情;二是缘分,无论是从审计还是管理咨询的角度,都赶上了中国企业的信息化建设的浪潮。
雷峰网:之前的从业经历对你后来创业有什么影响?
王东晖:我认为,我是在最好的时间加入了金山,加入金山时正值一个业务的巨大转型期。2007年金山成功上市后,我又获得了创始人的信任,也参与到了公司的诸多业务中。这些经历让我对一家企业有了更深入的了解。
这里边还有一个更重要的启发点,来源于跟雷军的对话和学习。雷军离开金山专职做早期投资那几年,每隔一段时间我们都会有沟通交流的机会,当时在金山我要向他汇报工作,他也会和我深度分享他的很多投资案例,这些其实都为我后来做投资做了很多铺垫。
雷峰网:做投资后有没有困难,毕竟是跨行?
王东晖:还好,我觉得做阿米巴比我在金山焦虑的东西要少的多,因为阿米巴第一就是强调简单,事情足够简单时,就不会产生那么多的焦虑。我们也是从一家创业公司到最后的上市公司,再到上市后公司业务的演变,经历了一个比较不错的发展周期。其实本身对科技以及互联网的发展有非常多的积累。再加上从容的态度,所以早期没有很多依赖管理费去谋生的额压力;另外创业时正值移动互联网快速发展阶段,也有很多运气的存在。
投资SaaS下手要早,下手要狠
雷峰网:为什么很早就开始做To B投资?
王东晖:国内投SaaS的机构都比较晚, 07年08年左右大家才会叫SaaS,具体讨论应该是从12 年13 年左右才开始,但当时真正能出手的其实非常少,国内也没有很多标的。
其实每个人对SaaS的认知都不一样,从阿米巴的角度来说,第一要避开流量见顶这件事情,另外中国To C 的 SaaS 服务,收费难度是非常大的。早期投SaaS时,大部分人还不相信b端 SaaS 能收费,可以说这是我们的一个相信或者赌注。时至今日,SaaS更是从传统的 “Software As a Service”认知升级成了“Software + AI As a Service”,在这个过程中垂直SaaS公司的服务能力会有一个数量级的提升,我们相信这是一个更大的红利。
雷峰网:相较于C端,To B领域的投资是不是很难?
王东晖:当然了,刚开始做的是一些围绕吃喝玩乐的轻SaaS,所以一期我们投的项目交了很多学费,但现在看来这个学费是非常有必要的,没有一期的学费,二期我们也不会投出那么多优秀的SaaS企业。
所以我们在15 年正式投二期的时候,其实已经想得非常清楚了,我们当时就锁定天花板比较高的几个SaaS 行业,因为我们相信在To B,垂直SaaS领域中国会有很多机会。当时行业内其实很多人不信,直到今天很多人也不信。现在来看更大意义的是,Open AI的出现无疑启动了AGI的飞轮。Open AI 给SAAS尤其是垂直SAAS公司插上一个翅膀,让他们可以飞得更高。
雷峰网:目前投过哪些?
王东晖:最早是电商,现在零售、教育、医药很多行业都覆盖了,接下来垂类SaaS会比较多,像SaaS跟AI结合的企业,包括低代码、无代码这类企业都会比较多,低代码我们最近投了精鲲科技。还有一些我们内部不叫SaaS,但属于SaaS类的企业,比方做 marketing tech 的也比较多,这类企业大多是帮着客户做线索挖掘、线索转换以及后期维护的。这些工具类的企业我们投的也会多一些。
雷峰网:为什么从电商领域开始突破?
王东晖:首先,电商本来就是完全数字化的环境,当时从阿里开始,它的平台就是一个数字店,围绕着进货、管理,整个链条都需要一个一体化SaaS平台。
电商有非常多的店,虽然这些店都不大,但这是一个成百万的客户基础,也是一个最好的SaaS付费场景,如果你把所谓行业的一些最佳实践,以最便捷的方式提供给客户,让客户能够最快的提升效率,尤其是订单量、采购量,销售量等方面,包括到后来的跨平台,从阿里到京东、到抖音再到拼多多甚至出海,它对SaaS的需求和依赖会越来越大,所以它的底层逻辑是千家万户的。
雷峰网:投资项目时,您最看重哪些特质?
王东晖:第一,这件事情的天花板要高,中国现在其实能够达到1亿美金以上规模的纯SaaS企业屈指可数;
第二,我们更喜欢研发出身的CEO,虽然研发出身的人不一定懂产品、懂销售,但研发能力是很重要的,我们不太喜欢前台型的CEO,这是我们的一个偏好。
第三,品质,我们总结的CEO的品质是,三句话不离本行,拥有强烈的使命感。
雷峰网:也就是说咱们投的垂类SaaS多,通用型SaaS少?
王东晖:通用型轻SaaS在看,但一直没出手,这还是一件很困难的事情。目前,我们在这种通用型轻量SaaS方面没有重大的布局。因为垂类SaaS相对来讲能比较快速的占领市场份额,抢占一个统治地位。而通用型SaaS要花很长时间去磨合。随着垂直领域在自动化、智能化上的推进,在未来的模型生态里,不但会有更多的通用大模型出现,同时在大模型基础上建立的垂直场景模型将形成新的组合,垂直SaaS公司在场景模型上可以爆发强大的力量。
雷峰网:纠结的点是什么?
王东晖:周期会很长,而且它本身是替代用户,绝对的替代价值没有那么高,比如我现在习惯改变了,但我觉得未来ChatGPT 会带来一个更大的改变,所以会让我觉得有很多不稳定性的风险考量。
雷峰网:现在投的大公司居多,还是初创公司居多?
王东晖:现在的阿米巴跟 12 年前的策略已经不太一样了。要么投足够早,要么就投一个相对能见度高的,中间我们投的不太多。
雷峰网:为什么中间投的不多?
王东晖:因为前三年,前四年,个别前五年是很平的一个状态,前三个轮次比较容易涨价,后面反而涨不起来了。索性还不如在第三年第四年这个节点去投,第三年对我来讲是一个不错的节点。
雷峰网:阿米巴在SaaS领域的投资回报率一直很高,是怎么做到的?
王东晖:下手要早,下手要狠,我们投的这些头部SaaS 都是第一大股东,极少部分是第二大股东,根本没有第三大股东,跟创始人有非常好的信任。
我们对公司有一个不错的影响力,虽然我不会干涉他们日常的运营,但是我们对他是非常有影响力的,我觉得这对一家早期的VC机构是特别难的一件事情。
雷峰网:大部分人都说,国内SaaS市场没有国外成熟?
王东晖:从资本角度来说,我认为他投的SaaS跟我说的不一样,我没办法反驳他,因为这个完全不是我们投的SaaS类型,我们没投过免费的SaaS,免费就不叫SaaS。包括在线会议这种免费的就不是我们投的范围。国内很多免费SaaS是因为对标美国,把美国那套copy过来,然后一大堆基金投进去,做这种通用型的轻SaaS,估值飚的很高,就会出现国内SaaS市场不成熟的现象。
ChatGPT带来了新视角,资本要坚信未来,相信进化
雷峰网:早期的投资逻辑和现在相比,有什么变化?
王东晖:2011年主打C端流量的红利,后来见顶后开始做B端,但我们并不是只做To B服务,B端我们也尝试了通用型的轻SaaS、SMB,包括最近我们也服务大了B、大G。
其实在大B、大G之前,我们就投了很多硬件,它也会产生大量数据,但这里边存在一个信息孤岛问题,这时它就需要SaaS把这些数据连接起来,把各种各样的应用场景打通。再就是现在我们迎来了一个更大的红利――Open AI,其实Open AI 给SAAS尤其是垂直SAAS公司插上课一个翅膀,让他们可以飞得更高,在这个过程中他们的服务能力会有一个数量级的提升。这其实是我从事这个行业这么长时间来,从来没遇到的一个兴奋点。
雷峰网(公众号:雷峰网):ChatGPT火了之后,对阿米巴的投资逻辑有哪些影响?
王东晖:GPT对所有行业都是赋能的关系。但我觉得它对通用型的轻 SaaS 会有更多覆盖,会带来一些新形式的新模式的颠覆。同样ChatGPT也会给投资机构带来新的变量新的视角,未来很多东西我们都要看。
雷峰网:也就是说投资也必须抓热点?
王东晖:对,投资必须关注热点,坚信未来。
雷峰网:对投资的展望?
王东晖:我觉得世界永远在变,所以我肯定也不会一成不变的去做VC,这也是这个行业我觉得美好的地方,就是说你肯定不会完全靠经验去做这个生意,经验是相对的,我们也要随着创始人一起变,跟这个世界一起变,跟科技一起变。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
山工院机械电子学院王长虎 字节跳动视觉技术负责人王长虎
山工院机械电子学院王长虎教授,山工机电工程学院,山东工业大学机械学院,山工艺领导成员文|沈筱 王与桐
封面来源|企业官方
距离ChatGPT首次亮相已经过去近五个月,LLM(大型语言模型)模型层玩家已纷纷就位。随着百度、阿里、商汤等企业先后发布自研NLP大模型,一众模型层创业公司和明星创业者也已拿到融资。
除了怀揣着成为“下一个OpenAI”的梦想之外,另一波创业围绕应用层――成为“下一个jasper AI”。更宏观的视角来看,或许中国的AI创业热潮已经来临。
但36氪本次采访的主角――王长虎,却没有把视角禁锢,在LLM和应用层两个创业热潮之外,选择了视觉赛道,围绕AIGC建设多模态算法平台。
之所以做出这样的选择,与其从业经历密不可分。自从业以来,作为视觉AI技术的坚定追随者,他没有错过深度学习诞生后的每一次技术发展小浪潮:2004年加入微软亚洲研究院,经历了搜索引擎飞速发展的时代;2017年加入字节跳动担任AI Lab总监,陪伴抖音这一现象级应用茁壮成长;2021年,他加入龙湖,成为龙湖数字化与智能化转型的掌舵人。
在搜索引擎和新型社交媒体这两大具有划时代意义的互联网产品背后,王长虎都扮演着“送水者”的角色。
2023年3月31日,他从龙湖离开,开启了人生第一次创业。而绕开NLP大模型和应用这两个最火的创业领域,他的思考是,与其投入大量精力、资源做不擅长的NLP大模型,不如从自己熟悉、感兴趣的视觉和多模态出发,做AIGC时代,更多行业及应用的算法平台。
为什么在此刻选择创业?什么是多模态算法平台?未来AIGC该去往何方?我们带着一系列问题,采访了王长虎。
王长虎口中的算法平台,可能包含解决不同用户场景的视觉或多模态大模型,以及相关的工程平台。具体来说,从服务UGC(用户生成内容)生态转向服务AIGC生态,王长虎认为“变的是U和AI,核心还是内容”。他要做的是围绕AIGC建设视觉为主的多模态算法平台,支撑AIGC从生产到消费的全流程,解决各行业、企业和用户可能面临的AIGC相关的实际问题,包括内容生成、版权、内容理解、分发,以及商业化变现。与all-in-one的NLP大模型不同,像Stable Diffusion等视觉大模型当前只能覆盖其中某一个环节。因此,在视觉AIGC全生命周期中的每个环节,可能都需要独立的大模型和系统来解决。
谈及创业时机,在王长虎眼中,此刻就是最佳。在移动互联网方兴未艾时,其他人还在拿着锤子找钉子,而抖音产品为视觉AI技术提供了施展拳脚的机会。
同时,在王长虎看来,尽管生成式AI时代已经到来,但新时代孕育的机会不仅是眼前所能见到和可预期的,更大的机会和颠覆性正隐藏在更多的不确定性中。
王长虎告诉36氪:“一定有很多东西都推倒重来,甚至从另外一个方向做出来。”他认为,抖音的出现和字节取得的成绩并非自然而然:“回到那个年代,如果在初期这个机会被很多大厂看清楚了,怎么可能有字节这样的初创公司发展起来呢?”
以下为36氪与王长虎的对话,经编辑整理:
谈创业:离开大厂舒适区,想做“送水者”
36氪:这是您第一次创业,此前经历更多是在大厂。为什么做了创业的决定?
王长虎:有两个原因。
首先是我的AI情结。我认为AIGC是至少10年一遇的机会。作为20年的AI从业者,亲历过10年前深度学习给AI带来的翻天覆地的变化,所以我不能错过这个机会。
其次是我的创业情结。我在外企工作过,半路加入过字节跳动这个创业公司。虽然带过上千人的团队,但心里一直有一个创业的情结,想要尝试从0开始,与合作伙伴们一起,孵化技术和产品,影响和帮助尽可能多的企业和用户,同时丰富我的人生履历。
浪潮来了,必然会有喜欢乘风破浪的人去奔赴。
36氪:微软和字节的经历,可以看作是您在上一波浪潮中拥抱到的机会吗?
王长虎:对。在微软亚洲研究院做科研,是非常幸福的,那时我主要围绕搜索引擎做计算机视觉和图片搜索相关的科学研究,那个年代,是搜索引擎的时代。在20年前,全球真正能处理大规模海量图片的团队可能也不多。我当时做了很多科研,其中一个系列是“草图搜索”,和现在的AIGC非常相关,要把脑海里想到的场景,通过关键字,或者画一些线条、涂一些颜色,在我们制作的工具上呈现出来。我们建设了世界上第一个十亿级别的草图搜索引擎。
我2017年初加入字节跳动,也算是半途加入初创公司,搭建了视觉技术团队,建设了视觉算法平台和业务中台,参与了抖音和TikTok等产品从0到1的建设和发展。我们的技术广泛应用到了字节跳动全线产品中,包括今日头条、抖音、TikTok等。用技术和产品影响和帮助数以亿计的用户,“change the world”,是我多年的愿望,在字节跳动得以实现。
36氪:这次您打算如何拥抱机会呢?您本次的创业方向是视觉多模态算法平台,这个怎么理解?
王长虎:我们要做的是建立服务于AIGC生态的、视觉为主的、多模态算法平台,支撑AIGC从生产到消费全流程,支撑各个行业和用户的应用,包括营销、广告、电商、游戏这些非常依赖内容创作的行业。
这和我之前在字节做的事情是类似的。但区别在于现在是AIGC,是UGC(用户生成内容)的升级。AIGC时代,人工智能可以更好地创造图片、视频、文章等等。
从PGC(专业人士生成内容)升级到UGC诞生了很多现象级的产品,包括抖音、微博等。所以我们在想从 UGC跨越到AIGC的时候,势必也会带来大量的机会,我们创业就想抓住这个机会。但是这两个词,UGC到AIGC,变的是U和AI,核心还是内容。既然如此,我们做的所有的工作都可以围绕AIGC,去解决它可能涉及的实际问题。
具体来讲除了生成外,AIGC也会涉及版权问题、内容理解问题、分发问题,也有商业化变现的问题。
36氪:所以从UGC到AIGC,从业务逻辑上来讲有没有会产生变化的方面?
王长虎:大概的方向是类似的,但技术路线可能会有变。因为 UGC变成AIGC,整个的内容生产形式变了,所以需要解决的具体问题或者解决途径可能也会变。
AIGC生成的文章、图片、视频,也会涉及安全问题、虚假问题,但我们怎么去定义问题、怎么识别以及解决,可能还需要探索很多,不管是技术层面还是应用层面。
36氪:你们的算法平台具体将如何发挥作用?
王长虎:这可能需要再介绍一下我在字节的工作,来更好地理解。抖音呈现的主要是UGC内容生态,我们建设的算法平台覆盖了UGC内容,特别是视频、图片,从生产到消费的全流程,它的全生命周期,AI都在发挥作用。在这上面我们支撑了抖音 、TikTok等几十个产品。
首先是在内容生产阶段,我们可以帮助普通用户更方便地创作优质视频。
其次是问题视频的拦截。当用户完成投稿后,我们利用人工智能技术拦截不适合分发的黄反和其他违规内容,确保公司各产品的内容安全。
过了安全这一关后,我们还要对视频内容进行全方位的分析,完善产品的内容生态建设,我们要找出重复投递的非原创视频予以打压。
这极难,所以背后的AI技术要做得非常强。每天用户会上传上亿个视频,我们需要检测每个视频,和数据库里海量的、上千亿的视频比较,判断是否雷同。有一些用户会专门拷贝非常知名的作者创作的优质视频,我们需要发现并打压。否则,无论是创作者还是用户的体验都会收到极大影响。
还有一些其他工作,比如我们要对视频进行充分理解,给视频打上丰富的标签用于推荐和运营。另外,还有给视频自动配音乐,早期是没有的。
最后是商业化变现,很多广告主,有大量广告素材生成的需求。我们需要帮助他们更好地、更方便地创作广告,做图片和视频生成、商业化落地。
36氪:从您的描述中,我们关注到或许在字节的工作经验就足以支撑您来创业了。为什么当时没有直接去创业而是去了龙湖呢?
王长虎:离开字节时虽然考虑过(创业这件事),但没有具体的创业想法。
我之所以从字节出来,是因为发现自己进入了舒适区,想要挑战新的事物。从我的人生经历来看,早先在外企做科研,然后到字节整个团队是从零带起来的,也经历了字节发展最快的几年。我希望能够走出象牙塔,深入产业中,看看实体经济的世界,将互联网的先进理念和技术带去传统行业,帮助产业互联网做数字化和智能化转型。这也是国家重点关注的事情。
另一方面,当时去龙湖时,生成式AI技术的进步还不足以对整个产业产生巨大影响。直到Stable Diffusion、ChatGPT出来之后,我才意识到新的AI时代到来了。从C端来看,用户数就说明一切,ChatGPT两个月就达到一亿月活,超过了当时TikTok的记录。
36氪:在您的构想中,什么样的企业会需要使用视觉多模态算法平台?
王长虎:除了之前提到的依赖于内容创作的行业企业,比如营销、电商、游戏,我们也有机会为AIGC应用层等相关企业提供内容安全、版权等方面的能力。
36氪:可以理解为您对公司的定位是生成式AI淘金浪潮中的“送水人”吗?
王长虎:这也是我在创业过程中想的最多的事情――公司的生态位到底是怎样的。总体上来讲,我们会围绕AIGC建设视觉为主的多模态算法平台。与all-in-one的NLP大模型不同,像Stable Diffusion等视觉大模型当前只能覆盖视觉AIGC全生命周期中的一个环节。其中每个环节,可能都需要独立的大模型和系统来解决。因此,我所说的算法平台,包含解决不同用户场景的视觉或多模态大模型,以及相关的工程平台。
同时我们也会深入行业,解决应用层的问题。
36氪:从现阶段来讲,可能想先从哪个角度去切入到这样的领域中?
王长虎:我们首先会围绕1到2个行业,解决行业里遇到的一些有关AIGC的问题,同时建设和打磨我们的算法平台,通过平台来帮助我们更好地解决行业问题。
36氪:目前团队筹备如何了?
王长虎:团队在初期的规模,已经有十几个人了,进展很顺利。作为创业团队,我们不会期望立马招到几百号人。但我们的目标是在短时间内将核心的技术、产品人才招聘到位,把团队扩展到几十人。
36氪:您期待招到什么样的人?目前也有很多其他大佬加入新一波AI创业浪潮,现阶段AI领域人才抢夺厉害吗?人才供应是否充足?
王长虎:我们希望能够聚集一帮有共同的创业理念、文化价值观,能打硬仗、打胜仗,充满创造力和笃定感的年轻人。
人才抢夺我不是很担心。一是校招生是可以成长的,我在字节的团队成员很多都是从校招生成长为了非常优秀的工程师、研究人员和管理者;二是国内近10年的AI技术发展过程中,也积累了很多优秀人才。现在也有不少优秀的有创业意愿的人才主动来找我,所以招聘速度是超出预期的。
谈生成式AI:影响大于此前任何技术变革
36氪:关于这次ChatGPT带来的浪潮,大家都有各自的看法,比如黄仁勋认为是“iPhone时刻”,李开复认为是AI2.0。您是怎么看待这波浪潮的历史地位的?
王长虎:真正的大的机会,是多数人都能看到和感受得到的,这里说的多数人不是说行业大佬,而是普通用户。像之前的元宇宙、区块链,可能只是被一部分人看到,而如今的AIGC这个机会,是大众能看到和感受得到的,因此是个真正的至少十年一遇的大机会,甚至有人认为是硅基生命的一个起点。
历史上每一个这样的大机会,包括PC的出现、图形界面的出现、互联网时代的到来、移动互联网时代的到来,都伴随着非常多的优秀公司以及傲视时代的巨头公司从0到1完成升级和蜕变。
因此,AIGC如果真的是像大家预判的那样,是个至少10年一遇的大机会,必然会带来众多颠覆性的创新和商业模式的改变,必然会颠覆众多已有的企业,孵化出新的众多的甚至巨头企业。
ChatGPT的出现是一个重要的里程碑,经过数十年的积累,AI终于从幕后走向了前台。AI有机会从一种技术,进化成基础设施,就像电一样。常常听到一种说法,人工智能带来了第四次工业革命,我觉得ChatGPT是真正的坐实这种说法的重要的里程碑。
36氪:之前您更多经历是在视觉领域,单就生成式AI模型来说,视觉领域之前一个比较主流的模型是GAN,GAN也是在深度学习掀起的那一波浪潮中产生的。现在的图像生成模型和GAN之间到底有什么差别?
王长虎:深度学习时代,包括GAN,几乎所有的非常厉害的模型,都是基于深度学习这一新的模型范式产生的。在那波浪潮之后,这十几年各种技术都在进步,虽然数据规模逐渐增大,但其实还是在这个范式里。只是现在的图片生成模型找到了一个非常有效的算法,在工程上面也做了很多积累。
与之前的图像生成技术相比,当前一个重要的突破是生成内容的可读性和可用性大幅提升。早期的生成模型例如GAN等,生成的图片或文章,用户可读性是比较差的,很多时候没法在通用领域上去使用。
36氪:现在的大模型生成内容可读性好,从技术原理上看,是由什么引起的?
王长虎:和大家之前预判不同的是,过去大家认为当模型参数逐渐变大时,它的边际的收益是越来越小的,在很多实验上面也做了验证。
但是这次ChatGPT可能因为模型有一定变化,参数达到了千亿之后,就涌现出超常的推理能力。
有多方面原因使得这个模型现在是超出预期的,现在也是在探讨中。
目前有几种说法,一种是ChatGPT引入了强化学习方式,通过数据标注,能够及时反馈到模型端。
第二个原因可能是由于ChatGPT用到了代码作为数据源。这个数据源被认为是非常重要的,因为程序员写的代码要求逻辑思维非常强。代*很长,开头、中间、结尾都有因果关系和逻辑关联,所以能够帮助解决长线的、逻辑上的问题。所以现在看到生成对话的逻辑思维也很强。
36氪:提到推理能力的涌现,现在大家对ChatGPT的看法是不是存在一些分歧?比如有的人会认为AI真的理解了语言甚至有自主意识,但还有人认为它可能跟以前没什么不一样,也是类似于鹦鹉学舌的东西。为什么会有这样的分歧?
王长虎:这两种说法其实不矛盾,从不同视角会得出不同的结论。如果基于微观视角,模型发展到现在,从物理上可能就是没什么区别。
用这个角度去看人类也一样。以微观视角来看,人就是由细胞,由分子、原子构成的。现在的人类和1亿年前的我们的祖先,从物理构成来看,并没有区别。人类的知识怎么来的,不也是这些神经细胞作用产生的吗?那么是不是当脑细胞、脑容量超过一定阈值的时候,真的就能涌现出一些功能?
所以,对大模型而言,不管是强化学习、深度学习、用户标注的闭环都不是新的概念。以前也做了很多工作,模型本身也和一两年前的模型在结构上的区别可能也不大。但是它产生的结果就是巨大的突破,这也是我们能看到的。
36氪:也就是在您看来,其实这一波技术变革也是通过渐进式创新产生的?
王长虎:AI是持续进步的,是这几十年的来AI发展累积出来的结果。虽然我们认为ChatGPT突然震惊了所有人,即使是这样,但其实它是站在很多工作的基础上的。GPT之前也有其他的一些研究工作,有科学研究的渐进的过程,相当于量变引起质变。
谈机会:颠覆性应用,目前尚未发现
36氪:您认为LLM(大型语言模型)和相关技术的发展,会让哪几个领域率先发生变化?
王长虎:最快也是最直接影响的是NLP领域。在这个领域,像ChatGPT这样的大模型,它能同时解决很多任务,比如机器翻译、文本理解、文本生成,包括问答、对话。很多做细分领域的人会发现自己的工具做得再好,也赶不上大模型。
36氪:这可能是我们目前能很快感受到的变化,有没有一些您认为更加颠覆性的变化?
王长虎:这也是我想说的,单把生成式AI视作一个工具还不足以说这是新浪潮。它带来的不是点状影响,而是会影响所有行业,会对生产力提升有巨大帮助。
但这种影响可以是颠覆性的,也可能不是。
目前,我们肉眼可见的或者可预测的变化可能都不是颠覆性的,但仍然有很大的想象空间,孕育着很多机会。比如内容生成,只是图片、视频还不够,以后还可以生成大电影,当然,当所有人都能够创作电影时,对电影导演要求可能也就变了,甚至电影形态也可能会有巨大的变化。再比如剪映,它是帮助用户创作视频的工具。这样的工具为什么不能利用生成式AI技术来使这个工具更好用?这不是颠覆,很多工具都可以加上这个概念。
但同时,我们需要关注,最大的机会可能不在这儿,而可能在这背面。回头看,哪个时代的几十年一遇的大机会,是在第一时间被看到的?
时代变革带来的巨大机会,很可能不是在已有的产品上加点东西,而是将很多东西都推倒重来,甚至从另外一个方向做出来,跟现在完全不同。
举个例子,移动互联网出来之后,短视频是不是被很多大厂都错过了?现在大家觉得这是自然而然就出现的,但其实不是。回到那个年代,如果这个机会被大厂第一时间看到了并重视起来,怎么可能允许字节这样的初创公司发展成巨头呢?
36氪:刚才您提到的短视频,最早字节内部想要去做抖音的时候,大家都是基于怎样的想法,说要去做这样的东西?
王长虎:抖音的重要性程度在字节早些时候并不是排名第一的,也是逐渐成长起来的。
字节早些时候也错失、摇摆过。腾讯也有这样的情况,微视也关停了一段时间。有很长一段时间行业并没有看得特别清楚。
在AIGC时代,这也是一些小公司的机会。现在既然大家都能看到机会,说明它一定是能可落地的。
但是我预判,现在绝大多数人,可能都没有看到最能爆发的机会在哪里。
36氪:这样的机会我们如何去挖掘?
王长虎:商业层面的机会,可能和以前一样需要去摸索,但至少在我们肉眼可见的地方可以先行动起来。但是技术层面,除了追上OpenAI的脚步,我们应该看得更深更远。
我的第一个期待是,当AI越来越强,想象空间不应仅停留在商业应用层,而是看它能不能反哺我们的基础科学,帮助科学家们去发现一些基础的定律、定理,这个能做到就更厉害了。但是前提是我们对AI一定要有很好的管控。
现在的AI有很多的安全、伦理的问题,像小孩一样,会演绎一些东西,通过他看到的世界、得到一些信号,推演出一些可能根本就无中生有的一些东西。但这是因为它的知识面比较小。ChatGPT的优势是创造,缺点是在知识,这是可以解决的,GPT4就已经有了很大提升。
另一个期待是,希望模型能够持续进化。现在模型的进化速度很快,但是目前可能没有人知道它会不会突然到一个地方就接近能力极限了,需要新的算法,新的范式、模式才能继续进化。
36氪:在您看来,技术层面想要看得更深更远,我们需要做什么样的尝试?
王长虎:可能需要有一群人抱着更纯粹的心态去做技术创新。
36氪:比如之前提到ChatGPT其实是量变引起质变。OpenAI能做成这件事情,部分原因确实是一开始就抱着纯科研创新的心态,那国内目前有没有可能也会有人沉下心去做更底层的技术创新,创造像transformer那样的“砖块”?
王长虎:一定有。中国有很多的,不管是高校还是科研机构都在做这样的一些创新的尝试。
经过这20年的发展,中国科研水平已经能够匹敌、超越外企研究院甚至很多国外顶尖高校。但是ChatGPT出来也让我看到一些差距,在什么地方?就是一些重要核心的颠覆性创新。
36氪:从目前的情况来看,现在大厂、明星创业者、科研团队都已经开始在大模型领域施展拳脚了,您认为中国能做出来类似于GPT-4的模型吗?您最看好谁?
王长虎:首先我觉得中国一定能做出来,因为模式已经走通了,大家都知道目标在那,我们就去做就好了。但到底谁能跑出来,还是都能跑出来,也不一定,有可能最后也未必是一家通吃,有可能是多家并存。
莫欺少年穷。首先国内大模型要比ChatGPT落后,这是大家达成共识的事情。但是现在有弱点很正常,只要能把模型放出来,有用户的feedback,意味着就有太大的机会把模型迭代起来。所以我也很期待,到什么时候能出现一个大多数人都满意的大模型,尽快追上或者赶超OpenAI。
36氪:像微软加OpenAI这样的组合,您觉得在中国能不能行得通呢?
王长虎:这个组合已经被验证成功了,但看是否在中国也可以行得通,首先是要有同样组合才行。那样组合是有一些条件的,像OpenAI最开始是非盈利状态,集结了一批非常厉害的科研人员,很长一段时间都不关注商业路径。
第二个,OpenAI是一家公司,整个团队会有同样的目标、愿景、使命,这是很难得的,一些庞大科研机构可能并不能做到这一点。
另外,微软作为科技巨头,一是提供了资金,二是提供了算力,采取了非常紧密的合作方式。
所以说,这种模式在中国怎么去构建,是不是有资本能够为非盈利机构投资都是问号。现在虽然有很多企业想做大模型,那也可能是因为他们看到了商业化的空间。
同时,A加B有不同的加法,到底是真金白银合作,还是相对独立运营,可以选择的合作方式其实很多。如果要完全复制这样的模式,我觉得可能很难。但是,在中国即使不是这种模式,也可能成功。比如大公司,百度或者字节,即使他们不跟OpenAI那样的创业团队合作,他们自己难道就没有这样的科研实力吗?目标在那里,往那儿走就行了。
但仍然是那句话,更重要的是下一个更牛的事情是什么,能不能做出来。
36氪旗下官方公众号