搞中国版ChatGPT,我们给“王慧文们”指条明路
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
自象限原创,作者:程心,编辑:罗辑,题图来自:《阿丽塔:战斗天使》
划重点:
如果将开发大模型比做是“造房子”,那AI Infra 就是“工具箱”,而中国缺少的正是工具和原材料制造工厂。
根据国外市场的情况,可以将整个AI Infra大致分为数据准备、模型构建、模型产品三个层面,在这三个层面中的每一个节点,都是创业公司的机会点。
“数据准备”是中国AI Infra第一个机遇。围绕着“以数据为‘能源’”,本身就是一条十分复杂而又基础的产业链,而我国的数据相关产业链,几乎都是云大厂“一带而过”,缺乏深耕在某个细分领域的垂直竞争。
在AI大模型的训练过程中,为训练和推理提供工具和调度平台也正在成为一个新的市场“模型中台”,但从目前国内的情况来看,“模型中台”确实是创业大佬们的游戏。
ChatGPT火爆之后,科技圈有不少人想谱写AI 2.0的中国故事。
据“自象限”不完全统计,短短一个月,国内有名有姓的大佬下场AI创业已经不下10位。但当AI Infra赫然出现在贾扬清的创业字典里时,一位前百度NLP高级工程师一边感叹贾扬清创业眼光的毒辣,一边对“自象限”说了四个字:这事能成。
这位工程师所说的“这事”,指的也并不是贾扬清创业的成败,而是终于有人看到了中国AI Infra的底子薄弱,想要上手来补一补了,那么,国内做AGI――“这事能成”。
不止贾扬清,最早掀起“大佬创业潮”的王慧文,在披露出为数不多的消息中,Infra出现了两次。在三个联创中,“一个Infra(基础设施)背景的联创”占据了重要的名额,与此同时,光年之外的第一个动作,便是与国产AI框架一流科技(Oneflow)达成并购意向。
被贾扬清和王慧文双双押注“AI Infra”到底是什么?在整个大模型开发中占据哪些关键节点?
顺着大佬们的思路,“自象限”将AI Infra的链条进行了盘点和国内外公司对比以反观中国现状。简单来说,AI Infra是一套十分复杂又基础的体系,包括构建、部署和维护人工智能系统所需的硬件、软件和服务的组合,它包括使AI算法能够处理大量数据、从数据中学习并生成有意义的见解或执行复杂任务的基本组件。
即如果将开发大模型比做是“造房子”,那AI Infra就是“工具箱”,而中国正是缺少工具和原材料制造工厂。
在这样的背景下,未来3~5 年,相比于受限大模型能力变化的应用层面,AI Infra反而会更加稳定。毕竟大模型公司搞军备赛,那卖武器的公司增长一定十分可观。
但问题在于,如今中国的AI产业链在这一块还处于相当空白的状态。国内基于ML进行数据标注的公司星尘数据创始人就曾提出过这个问题,中国有没有AI Infra公司?答案是:没有。
他认为“国内从业人员太过于专注在方法论上,而方法论是公开的,但实际不公开的内容才有更多Knowhow和壁垒性”。
所以,如果说应用生态是显性创业机会,那么AI Infra便是隐形的蓝海。事实上,当AI进入2.0时代,AI Infra在整个AI产业链的价值也正在发生变化。
我们根据国外市场的情况,可以将整个AI Infra大致分为数据准备、模型构建、模型产品三个层面,在这三个层面中的每一个节点,都是创业公司的机会点。
图片为自象限原创,转载请注明出处
其中数据准备又可以具体拆解为数据质量、数据标注、数据合成和应用商城与工程;模型构建又包括机器学习平台、版本控制和实验跟踪、模型风险管理;模型产品则包括模型部署和服务、模型监控、资源优化等。
这些细分场景都在成为AI产业链的新“聚宝盆”。本文重点结合海外头部公司对AI基础层的研究,梳理了在大模型训练中比较重要,亦或是国内目前比较薄弱的方向,希望给国内创业者予以启发。
一、数据新产业链中的“聚宝盆”
“数据准备”是中国AI Infra第一个机遇。
对比中外生成式AI的发展会发现,中文数据的缺乏一直中文AI大模型的是最大短板。
有公开数据表示,截至2021年,在全球排名前1000万的网站中,英文内容占比60.4%,中文内容占比仅1.4%。但作为AI三要素(数据、算力、算法)中最基础的部分,数据又是整个AI大模型训练的前提。没有数据,就相当于巧妇难为无米之炊。
需要明确的是,围绕着“以数据为‘能源’”,本身就是一条十分复杂而又基础的产业链,涉及到数据质量、数据标注、数据安全三个主要部分和多个环节。
未来在AI活跃的氛围下,中国一定会涌现出多个大模型,目前仅百度就有36个大模型,阿里、百度、腾讯、华为每家的大模型都不低于三个。而大模型越“热闹”,对后端数据的需求数量和质量也会更高。
但反观我国的数据相关产业链,几乎都是云大厂“一带而过”,缺乏深耕在某个细分领域的垂直竞争,我们整理了几个产业链中的关键机会,仅供抛砖引玉,期待更多创造。
1. “数据质量”新机会:曾在这里摸爬滚打的企业,或迎来“出头之日”
整体上看,数据质量的机会分为两个部分,一部分是在技术侧,机器学习和自动检测正在成为数据质量的新机会。另一部分是在市场侧,随着AI市场规模越来越大,数据质量正在从产业链末端扩展成为供应商直接服务企业。
未来,随着AI成为社会发展的底座,数据质量会成为每个企业的刚需。但国内数据质量尚未受到足够的重视,缺乏专门做数据质量的企业,它更多是以大公司附庸品的形态出现,更像是“顺手”做的事情。
但实际上,数据质量是需要市场化的,就像汽车公司没办法生产每一个零部件一样,只有让数据质量成为整个产业的底座,通过众人拾柴火焰高的方式,才能推动整个行业的发展。
在国外,数据质量是十分垂直的赛道。这类公司的核心目标,是帮助人工智能企业最大限度地减少劣质数据带来的影响,他们的产品通常包括数据可观察性平台、数据整理和偏见检测工具,以及数据标签错误的识别工具等等。
国内其实也有这类的公司,但数量稀少。这些公司有一个非常明显的特点,就是他们在数据的细分赛道里摸爬滚打了很久,但因为这个赛道过于垂直,因此无论是资本还是市场都对他们关注不多,导致他们一直没有“出头之日”,也导致他们和国外专业的数据治理公司差距甚远。
图源《数据治理产业图谱1.0》
国内的数据公司目前大多停留在筛选阶段,而国外的公司却能通过深度学习对数据进行深度挖掘,在同样的数量上获得更多有价值的部分。这种差距主要源于:
第一,国内数据处理方式老套。许多中国的数据公司仍然在使用数据建模这样的传统方法进行数据处理,而国外已经开始使用机器学习的方式进行自动处理、自动标注,自动检测安全等工作。
第二,数据处理效率低下、可用的优质数据占比低。中国的数据公司在做数据处理的时候仍然处在初级阶段,即在一堆数据中将符合标准的数据筛选出来,只是不同的公司筛选的标准不同,得到的结果有所差异。而国外的公司却能在数据处理的过程中,通过对数据不停地清洗、修改得到更多符合条件的优质数据。
简单来说,在AI 2.0时代,大模型的训练对更全面、更准确、可溯源的高质量数据有着更庞大的需求,同时也对效率有更高的要求,依靠机器学习自动检测质量问题,将会是一条新的路径。
同时,在数据成为“新石油” 时代,数据质量并不能只靠大模型的发展带动,每个企业都需要对内部数据的质量进行精粹,发挥市场化的力量,大范围提质。
对标国外垂直赛道中的典型案例Anomalo,它使用ML自动评估和通用化数据质量检测能力,实现了数据深度的可观察性,以及数据质量检测的能力泛化。
简单来讲,它一方面把数据质量这件事做得更深,另一方面通过能力泛化将其做得更广。
2022年10月,Anomalo与Google Cloud达成合作,企业可以使用无代码关键指标和验证规则或通过任何自定义SQL检查来微调Anomalo的监控。简单地说,Anomalo上云后,对于企业而言几乎可以无门槛接入,且适配性高。
Notion是Anomalo的核心客户之一,Notion是国外最大的All in one 办公软件,国内的飞书学习的就是它。其软件工程师对此评价:“Anomalo团队的功能、集成数量和响应速度够非常强大,用户易于导航并找到他们正在寻找的内容。”
2. 数据标注新机会:从“人工标注”到“算法标注”
数据标注者正在从人工标注,向自动标注和智能标注迈进,中间的变化不仅是效率的提升,也将迸发出巨大的产业机会。
在AI 1.0时代,人工标注是AI发展最典型的特点,在那个“有多少人工就有多少智能”的时代,全世界的AI发展都与底层廉价劳动力资源息息相关。
但在AI 2.0时代,李开复点明与AI 1.0的第一个差异就是无需人工标注,AI可以阅读海量的文本,进行自监督学习。可以说,标注后的数据是AI大模型的命脉,它的性能和准确性直接取决于标注数据的质量和数量。
在AI产业链中,数据标注也占据了非常大比重,据AI分析公司Cognilytica的数据,数据标注环节的耗时占比可达25%。根据researchandmarkets的报告,全球数据注释和标签市场预计将从2022年的8亿美元增长到2027年的36亿美元,预测期内复合年增长率为 33.2%。
数据标注通常包含图像、文本和视频
以AI大模型之前,以AI最为人所熟知的自动驾驶领域为例,数据标注和训练一直是自动驾驶技术研发中成本最高的两个“吞金兽”,为了解决成本和效率问题,无论是国外特斯拉还是国内的毫末,都在人工标注到标注自动化,再到标注智能化的路径上进行探索。
自动驾驶仍然是数据标注/图片标注使用量最大的一个应用场景,而未来,随着文本大模型、多模态大模型的不断涌现,还将出现新的增长机会。
从人工标注到算法标注,是底层智能化的变迁。这其中跑得最快的是Scale.ai,目前Scale.ai是全球最大的数据标注公司。据外媒报道,目前Scale.ai最新一轮E轮融资3.25亿美元,估值达到73亿美元。
Scale.ai早期走的也是人工标注路线,利用了印度标注团队,靠着比美国更便宜、更高效的标注服务打开市场。在行业选择上选择了当时大火的自动驾驶赛道,并早早与Waymo等龙头企业达成合作。
后期随着技术的发展,AI训练对数据的广度、深度、精度要求也越来越高,为了解决这个问题,Scale AI将AI应用在数据标注服务中,先用AI识别,再由人工负责校对其中的错误,校对完的数据再“投喂”给训练模型,使下一次的标注更加精准。
目前,Scale也将业务拓展到无人车、无人机和机器人等领域,同样也在向下游拓展,开发自有模型提供给其他数据标注公司,并逐步进入AI/ML价值链的更多环节。客户包括美国国防部、PayPal、自动驾驶公司及科技巨头。
3. 数据隐私和安全新机会:“合成数据”或成AI数据主力军
正如互联网的发展长河中,崛起过如360、金山毒霸等“安全专家”,移动互联网时代的腾讯手机管家、360手机卫士一般,在AI时代,“安全”将仍然是技术和应用发展的底盘和重心。
目前,随着AI技术呈指数级发展,合规和隐私风险的行业痛点也在逐渐暴露,3月的最后一天,在西班牙媒体指责OpenAI未能遵守用户数据保护法规后,意大利相关部门也以类似的理由宣布了对ChatGPT的禁令。
隐私计算和数据安全话题被重新推上风口浪尖。
3月下旬,OpenAI曾发布声明,称因为ChatGPT开源库中存在一个漏洞,致使一些用户可以看到其他用户的信息,包括用户姓名、电子邮件地址、付款地址、信用卡号后四位以及信用卡有效期。
ChatGPT目前拥有超过1亿用户,虽然OpenAI并未说明,“一些”用户泄露到底是多少数量级,但哪怕只有千分之一的用户接触到了这一漏洞,其后果都是不可估量的。
中国面对大模型的保守和谨慎也有一部分来源于对数据安全体系的不信任。国家层面也不断提出加大安全性测试和常态化管理投入,包括数据外泄等问题的紧急检测和修补措施,以及更先进的预防体系建设,如内控流程的完善、数据脱敏处理等,最大限度保证安全性。
数据显示,中国信息安全市场的潜在空间高达1000亿元上下,与全球安全服务市场64.4%的份额相比,我国安全服务市场占比仅为19.8%。目前国内信息安全产业依然以硬件为主,软件市场空白度高,发展潜力巨大。
除了更加强大的数据安全保护之外,从根本上解决数据隐私的问题也成为一种思路,其答案就是数据合成。
合成数据即由计算机人工生产的数据,来替代现实世界中采集的真实数据,来保证真实数据的安全,它不存在法律约束的敏感内容和私人用户的隐私。
目前企业端已经在纷纷部署,这也导致合成数据数量正在以指数级的速度向上增长。Gartner研究认为,2030年,合成数据将远超真实数据体量,成为AI数据的主力军。
图源Gartner
二、“钞能力”的“模型中台”:需要创业大佬们的新游戏
如果我们把大模型看作一个云产品,那么数据、算力、算法可以被看作是这个产品的“IaaS”,即基础设施。而在“基础设施”和前台应用的SaaS之间,还存在一个PaaS平台作为中间层,承担起为SaaS提供部署平台,开发工具等任务。
这样的结构在AI大模型中也同样存在,当训练AI大模型的前期数据准备工作完成后,数据会被送到一个新的训练池里,在这里完成训练、推理,中间也涉及到各种开发工具、统筹调度等系统,我们也可以将其称为大模型的“炼丹炉”。
现在,大模型训练已经有ML Paltform这样的平台型解决方案覆盖从数据准备训练、验证、到模型部署和持续监控的全流程,促进端到端的模型开发。
这类公司可以简单理解为“大模型开发的一站式服务平台”,为任何想要开发或使用大模型的公司做供应商服务。
事实上,如果继续对比这些年云计算的发展和变化会发现,云厂商和企业都在不约而同地加码PaaS平台。而在AI大模型的训练过程中,为训练和推理提供工具和调度平台也正在成为一个新的市场“模型中台”。
图源DataRobot
但“模型中台”市场也存在许多问题。
比如,Forrester在《The Landscape In China, Q4 2022》报告中指出目前的市场化难点:“客户使用AI技术的关键障碍之一,是缺乏开发AI解决方案和操作AI系统的能力,而AI/ML平台是解决这一问题的有效方法。Forrester依据供应商的市场情况,将其划分为大型、中型、小型三类。”
目前国外这个市场出现了“大鱼吃小鱼”的情况,大型供应商正在通过收购AI开发过程中不同部分的小型公司,以占据更大的市场份额。
目前在全球范围内跑得比较快的是DataRobot,最新一轮完成了2.5亿美元的融资,估值达到60亿美元。Dataiku最新一轮完成了4亿美元的融资,估值达到42亿美元。还有开源公司H2O.ai,最新一轮完成了7000多万美元的融资,由高盛和平安领投。
但这还只是“模型”中台的在训练部分的机会,当一个模型完成训练之后,就进入了模型部署环节。
模型部署也是未来大模型走向B端应用的一个重要环节,也有一套专属工具。
这套工具需要与底层ML基础设施、运营工具以及生产环境结合,来实现模型部署的三大环节,即优化模型性能,简化模型结构,并将模型推向生产。
一般来说,模型的部署可以是几周、几天,也可以是几个小时,这要看模型部署的效率。所以更快的模型部署能力也是更强的核心竞争力。
而这类工具可以将ML工程师从基础设施和硬件层面的决策中抽象出来,协调IT团队、业务人员、工程师和数据科学家的工作,提高大模型部署团队的整体效率。
除此之外,它们还能将训练有素的模型转化为敏捷、可移植(适用于任何硬件)、可靠的软件功能,并与企业现有的应用程序堆栈和DevOps工作流程相结合。简单来说就是提高模型的环境适应能力,快速与更多业务兼容。
不过,从目前国内的情况来看,“模型中台”确实是创业大佬们的游戏,对于当下中国的AI链条来说,除了高昂的启动资金和试错成本外,更需要的是超一流的专业技术,如何合理规划平台架构,深入到训练部署的每一个环节,对创始人的框架能力要求极高。
从另一个角度来看,在这场需要“钞能力”的游戏中,创业公司和资本的关系将比此前更为密切,甚至决定生死。
资料参考:【【网址】】/p/594362766
ChatGPT和微软有什么关系 ChatGPT与微软
微软chatbot,微软和crowd1,微软和v社,wicresoft和微软的关系“高开”的微软新必应,正在承受压力。
一方面,谷歌没有留在原地被动挨打,聊天机器人Bard正在加速前进。当地时间3月31日,谷歌CEO桑德尔·皮查伊(Sundar Pichai)在采访中透露,Bard将在未来几天从目前基于LaMDA的模型转移到更大规模的PaLM上。
这意味着,Bard将能更好地应对多步推理和数学问题,编码功能也将推出。这是此前微软必应机器人与Bard相比最明显的优势。
另一方面,微软的好朋友OpenAI正在面临巨大的阻力。
突然之间,很多人在呼吁停止比GPT-4更先进的商用语言模型的推出,包括马斯克在内的上千人发表了联名公开信,美国AI和数字政策中心(CAIDP)也向联邦贸易委员会(FTC)发起投诉,请求其进行止。
意大利已经禁止了ChatGPT,当地个人数据保护局开始立案调查。德国联邦数据保护专员发言人也表示,出于数据保护方面的考虑,“暂时禁止在德国使用ChatGPT原则上是可能的”。
根据此前福克斯新闻的报道,OpenAI将在年内升级GPT-5。如今面对外界种种阻力,该计划是否能顺利落地充满变数。而对于微软来说,OpenAI的新语言模型是其最重要的武器之一。此前OpenAI发布GPT-4,强大的能力惊艳四座,微软当即表示必应机器人使用的正是这一模型。
有意思的是,在最想追赶的搜索引擎老大谷歌勤奋升级、最关键的合作伙伴被“围剿”的时刻,微软还发现背后正有一众小引擎拿起武器加入战斗。
目前,还未见微软必应针对谷歌Bard升级和OpenAI危机的措施,但对身后的小引擎已经重拳出击。
当地时间3月24日,彭博社报道,微软公司威胁称,若搜索引擎继续将微软的互联网搜索数据作为自家AI聊天产品的基础,微软将阻止这些公司获取相关数据。
经查询,已经有多个小搜索引擎推出了自己的聊天机器人,如DuckDuckGo、【【网址】】、Neeva等。而它们的常规搜索引擎均使用必应提供部分信息。
微软杀了个回马枪,对着小引擎的AI梦就是一个正蹬。也许微软心里也清楚,必应虽为全球第二大搜索引擎,但市场份额仅为个位数。
比起必应追赶市场份额超过九成的谷歌,身后的小引擎追赶它,显得容易多了。
A
“微软将利用ChatGPT背后的人工智能颠覆互联网搜索市场,并拆毁支撑谷歌核心业务的高利润率。”两个月前,当微软正式推出新必应时,其CEO萨提亚·纳德拉(Satya Nadella)向谷歌宣战。
支撑起微软雄心壮志的,正是新必应的聊天机器人,这是微软在ChatGPT大火、向OpenAI追加数十亿美元投资后,向市场投掷的第一枚重磅产品。纳德拉彼时还表示,接受搜索业务的“不盈利”,以便可以蚕食谷歌的搜索引擎市场。
谷歌被动应战拿出聊天机器人Bard,以及应战后的不幸意外——演示视频出现事实错误,谷歌市值一夜蒸发千亿美元——使得必应博得了不少流量。
必应捷报频传。
新必应推出的次日(2月8日),应用研究公司Data.ai的分析显示,必应应用程序的全球下载量在一夜之间猛增10倍,并在苹果应用商店成为第二受欢迎的免费生产力应用,仅次于谷歌邮箱Gmail。推出一个月后,3月10日,必应宣布日活用户数突破1亿。
分析公司SimilarWeb的数据显示,从微软推出新必应到3月20日这段时间,必应的访问量增长15.8%,而谷歌搜索引擎的访问量下降了近1%。Data.ai的最新数据显示,新必应的下载量在全球范围内跃升8倍,同期谷歌搜索引擎引用的下载量下降了2%。
但截至目前,若横比来看,必应尚未能在市场份额上撼动谷歌的绝对优势地位。
根据Statcounter数据,在刚刚过去的3月,必应的全球搜索引擎市场份额只有2.87%,这个数字和2月的2.88%相比几乎持平;而谷歌的市场份额为93.18%,也与2月的98.17%相比几乎没有变化。其他维度如桌面端市场份额、美国市场份额,也是类似的情况。
更有意思的数据是,比起必应和谷歌搜索之间90%以上的市场份额差距,雅虎的市场份额实际上只比必应低1.75%,就算是“小引擎”DuckDuckGo,其市场份额与必应相差仅为2.37%。
这也就意味着,微软想以新必应“摘桃”谷歌,不仅要蚕食谷歌的搜索市场、靠近谷歌,还要甩开身后的小引擎。
以ChatGPT为武器的微软,正是在这方面被小引擎“背刺”了。
B
几乎每个搜索引擎都在加入这场战斗,并且懂得找到合适的切点。
有的引擎懂得人为制造错位优势。成立于2008年的DuckDuckGo,从一开始就以“隐私保护”为卖点制造错位优势,争夺那些不信任大科技企业的用户,现在已经拿下了全球搜索引擎市场份额的0.52%。
3月初,就在微软发布嵌入聊天机器人的新必应的几周之后,DuckDuckGo发布了DuckAssist。
与必应机器人相同的是,DuckAssist也由ChatGPT驱动,在此基础上结合了Anthropics的语言解析功能。与必应机器人不同的是,DuckAssist目前将内容限制在维基百科及相关资源(如大英百科全书)的范围。
不管是ChatGPT还是必应机器人、谷歌Bard,都深受“幻觉”之苦,机器人没有正确和错误之判断,会“一本正经地胡说八道”。缩小机器人搜索的范围,理论上可以减少其生成内容时出现“幻觉”的现象。DuckDuckGo通过这种方式,再一次为自己制造错位优势。
有的引擎跑在对手前面。【【网址】】搜索引擎2021年11月才推出,去年12月就已经推出第一代聊天机器人YouChat。
彼时距离OpenAI推出ChatGPT不过一个月,而微软还没有宣布推出新必应。今年,在微软召开新品发布会宣布新版必应上线的当天,【【网址】】将聊天机器人升级为YouChat2.0,为用户带来更准确的答案、更丰富的视觉效果。
从形式上看,YouChat也已经抢跑必应。YouChat与40余个第三方应用程序一同开发,这个做法不仅可以为YouChat提供收入,还可以丰富YouChat给出的内容形式。
比如当用户询问股票价格,YouChat可以从维基百科抽取图表展示。通过和Stable Difussion等第三方的合作,YouChat可以直接为用户“画图”。此外,YouChat通过第三方应用软件嵌入回答的还可以是电影预告片、求职网站领英(Linkedln)等信息。
与之相对的,微软必应刚刚于4月4日更新聊天机器人,在其对话中包括图片和视频搜索结果。
这样的“超前”离不开【【网址】】创始人的“不凡”。其创始人理查德·索切尔(Richard Socher)本身就是人工智能科学家,曾于斯坦福大学担任兼职教授。其学术作品在谷歌学术自然语言处理方面的引文排行榜上名列第四。
理查德·索切尔 图源:The Information
今年推出了NeevaAI的搜索引擎Neeva,其创始人拉马斯瓦米(Sridhar Ramaswamy)是工程师出身,在谷歌工作15年,曾是谷歌的广告与商业业务主管。
同样“抢跑”的还有“对话式搜索引擎”【【微信】】.AI。从产品的定位就可以看出,其产品本身就可对标必应内嵌的聊天机器人。时间上,【【微信】】.AI于2022年上线,也同样早于微软新必应的推出。
其联合创始人兼CEO斯里尼瓦思(Ara【【微信】】)曾就职于OpenAI,而另一位联合创始人兼CSO则曾就职于Meta AI。
C
不可小觑的创始人履历,颇为迅速的跟进动作,都让必应不能大意。
根据SimiliarWeb的数据显示,今年1月份【【网址】】的网站访问量达1580万次,环比上涨150%左右。而Perlexity.AI颇受资本亲睐,刚刚在3月底完成了2560万美元的A轮融资,融资后估值约为1.5亿美元。
拿出不惜成本也要追击谷歌之姿态的微软,不难发现对于身后的小引擎来说,“不惜成本”甚至来得更加轻松。
一方面,这些小引擎大多以“无广告”“重隐私”等进行错位竞争,用【【网址】】创始人索切尔的话说,是“反谷歌”的。
对于它们来说,广告收入的损失本身就难以形成阻碍。在发展聊天机器人的同时,小引擎在寻求另外的盈利方式。比如YouChat与第三方的合作,以及推出其他AI付费工具如YouWrites(可帮助用户生成邮件或文章等);Neeva则提供无广告的订阅服务。
小引擎如此热烈地投身“颠覆搜索”的战斗,必应当然坐不住了。
据彭博社报道,微软已经告知至少两位客户,使用必应搜索的索引(Index)为他们的聊天工具提供信息违反了合同条款,微软可能会终止向这些企业提供访问数据库的许可证。
前文提到的DuckDuckGo、Neeva、【【网址】】均有使用必应的索引,对于微软来说,没有比这更能快速遏制他们用聊天机器人削弱新必应独特竞争优势更好的手段了。
从常识来讲,用着别人的数据,还和人家竞争,的确有点“不仗义”,必应此举,难道不是在捍卫自己的权利吗?
可能没有这么简单。
D
庞大的索引本身,正是谷歌和必应的“护城河”,这也许比人工智能工具更难跨越。
根据《纽约时报》2020年的报道,谷歌自成立两年后的2000年就已经拥有超过10亿个网页索引,到了2020年,这个数字膨胀到了5000亿到6000亿。而英国竞争主管部门表示,微软的索引包含1000亿到2000亿个网页。
目前,微软和谷歌是仅有的两家对整个网络进行索引的公司,而谷歌对其索引设有使用限制。对于小引擎来说,索引整个网络的成本很高,接入必应的索引几乎是不得不为的。抓取网页是需要花钱的,这对微软来说是做与不做的问题,对小引擎来说则沉重到难以负担。很多曾经立志建立独立索引的引擎都以失败告终,而前文提到的DuckDuckGo也是其中一员。
在成立几年之后,DuckDuckGo停止了全网索引,转而从微软那里获取搜索结果,仅保留对维基百科等网站的自检索。
在2019年向美国众议院反垄断小组委员会提交的声明中,该公司表示:“如今,以及在可预见的未来,一家有抱负的搜索引擎初创公司不可避免地要向微软或谷歌寻求搜索结果。”
FindX的故事足以说明小引擎的困境。
2015年,这家丹麦的公司试图创建自己的引擎,但Yelp和Linkedln等网站却不允许这个年轻引擎抓取自己。而由于一个代码漏洞,FindX被标记为有安全风险,很多基础设施提供商将其屏蔽。最终,这家曾野心勃勃的引擎在2018年关闭。
对于小引擎来说,这是一个尴尬的“鸡生蛋还是蛋生鸡”的困境:没有足够的流量,无法取得足量网站的信任,让其抓取自己的内容,尤其是大型网站更为谨慎。而没有足量的网站被抓取,建立不了够大的索引,又难以吸引用户反复使用,也就没有足够的流量。
也有人想要突破这样的怪圈,在欧洲,一个名为开放搜索基金会(【【淘密令】】)的组织提出建立共同的互联网索引的计划。
但到目前为止,依然没有足够大且有效的公共索引被建立起来,小引擎要么就像DuckDuckGo一样“弃暗投明”,屈服于微软和谷歌,期待有朝一日可以甩开拐杖。要么就缓慢地“死磕”,至今还是有自建索引的引擎,如Brave,但规模尚小。
微软的警告与威胁,实际上是在奋力追赶谷歌的同时,一次严肃的“清后”行动。在它认为必应有希望以新型搜索方式挑战谷歌的同时,自然明白这种新型搜索方式必须得足够独特。
有意思的是,在微软发出威胁之后,小引擎们似乎并没有退缩。不管是【【网址】】还是Neeva、DuckDuckGo等,都还在大力推广自家的聊天机器人。
其中【【网址】】没有对微软的威胁予以回应,DuckDuckGo的DuckAssist本就基于维基百科等网站,可能暂时不会受到影响。而Neeva则干脆“宣布独立”。
3月28日,Neeva官方账号在推特发布消息:“经常有人问我们,Neeva有自己的搜索堆栈吗?答案是:是的!我们是玩真格的。我们是独立的。”
Neeva进一步解释,早期,Neeva始于必应的搜索技术,但如今是每天抓行上亿个网页、总计拥有数亿页面索引,建立了“在谷歌和必应之外最大的完整的搜索堆栈”。
就目前来看,微软为必应“清后”,并没有获得预期的效果,至少无法阻止最显眼的几位竞争者。
而另一边,谷歌动作频频,OpenAI面临未知。想要蚕食谷歌搜索市场的必应毫无疑问已经“高开”了,但要想不“低走”,还有很多仗要打。
参考资料:
1、华尔街见闻:《搜索市场要变天?整合OpenAI技术后 微软必应下载量跃升8倍》
2、创业邦:《资本愿意给钱,现在,人人都想做一个搜索引擎》
3、钛媒体:百万账号被封,人类跳反,ChatGPT下半场如何走?》