AI机器人之战 ChatGPT /GPT
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
近期ChatGPT这类AI聊天机器人产品,毫无疑问已经让已经冷却了许久的人工智能重新吸引了大量的关注,孰强孰弱也成为了大家关注的重点。为了验证这些AI对话引擎的性能,安兔兔特别进行了一期针对性测试。
在AI领域,安兔兔之前就推出过针对手机NPU的AI性能专业测试软件“安兔兔AI评测(AITUTU)”。所以对于AI相关测试来说,安兔兔的AI专家相对于普通用户理解会相对更多一点,因此,我们此次测试的关注点和能力考察相对于普通测试会有些区别。
此次测试,安兔兔基于AI对话引擎能力点要求的不同,将测试分成了六大模块。这些模块分别是:“1.语言理解 \ 2.任务完成 \ 3.常识问题 \ 4.逻辑数学 \ 5.代码能力 \ 6.专业领域”。
这些模块的设计主要遵循了循序渐进的规则,例如语言理解是NLP对话基础的基础,一个AI引擎能否读懂用户发出的内容,决定了后续的工作能不能完成。而任务完成,则是考察从基础任务到相对困难的任务,AI引擎的具体执行能力。剩下的常识问题,逻辑数学,更多是考察引擎灌入训练的数据集是否足够庞大,再往后的代码能力和专业领域知识,则像是考察更加拔高的能力水平。我们换个说法,这就像是一个人从咿呀学语到蹒跚学步,再到学有所成,成长为专业人才的过程。
具体每个模块下,又有诸多细分,具体考题的评判标准分为四档:0/1/2/3,其中0为最差,3为最好,通过这样的分数能够直观的判断AI能力的差异。具体评分细节会在分类中给出。
但需要注意的是,由于无论百度的ERNIE 3.0、还是OpenAI的GPT-3.5 turbo和GPT-4均未开源,所以它们的底层逻辑是如何实现、RLHF调优是如何做到的,目前都处于黑箱状态,而且每次的回答均为机器实时运算得来,我们并不能确保每次的答案都完全相同。所以完全客观就变得难以实现,因此我们无法避免在部分模块中完全排除主观因素的影响,特此注明。
根据以上打分规则和考察内容,我们先揭晓结果,这三款引擎的总成绩如下:
很多人看到这个结果可能会说,这个结果我们也能猜到。但具体的原因,大概就不会有很多人了解了。下面的内容,安兔兔就为大家详细解析每项测试的具体测试目的,以及产生这样结果的原因。
详细测试过程和分模块成绩
1.语言理解
可以说语言理解能力是NLP的主战场,这一部分的表现是各个大模型的基本盘。我们的测试既包括常见NLP的任务,比如文本摘要,阅读理解,关键信息抽取等,还有一些大模型擅长的文本生成能力,像写作生成等。由于大模型强大的端到端的处理能力,我们并未测试只关注中间结果的部分传统NLP的任务,比如实体识别,语法分析等。我们认为随着大模型的能力的提升,一些研究中间结果的NLP任务会逐渐弱化。此外,本次测试我们只关注中文的效果,并未考虑模型的多语言能力。
我们在这项测试中,细分了六项内容,分别为:
1.写作生成:给一个简短要求,生成一定数量的文字。
2.阅读理解:根据给定文本回答问题。
3.复杂语义理解:双关类,修辞类,中文分词类,情绪类,谜语等问题。
4.摘要生成:提供一定长度的话,让引擎产生摘要。
5.信息提取:复杂文本中关键信息提取。
6.多轮理解能力:3-10轮左右对话,对话内容主题有跳转,问题不考察太复杂的推理和常识。
对于每一道题来说,如果完全没理解问题则得0分;问题理解有偏差,回答出现部分错误则得1分;问题理解基本正确得2分;问题理解准确,回答超出预期则获得3分的满分。
先看结论
从此模块的结论上看,ChatGPT 4.0不出意外夺得魁首,但我们发现百度文心一言在此次评测中的表现其实并不算差,大部分项目都能与GPT-3.5 turbo持平,甚至某些项还略有超出。它的能力弱势,则主要集中在摘要生成和信息提取环节,这些大幅拉低了最终的得分,导致结果不太理想。
举个具体的例子,就能发现问题。
例如摘要生成环节中,我们用《史记》中的一篇《萧相国世家》原文854字内容作为输入,让AI产出摘要。此时ChatGPT的两版AI引擎均能精练、并总结翻译内容得出112字和199字的摘要,但文心一言似乎完全没看到我们在文章结尾“这段话产生摘要”的提示,直接将这篇古文的全文翻译、整个贴了过来,而且因为1000字的字数限制,只到1000字就意犹未尽的结束了对话。所以在这道题目的测试中,ChatGPT拿到了3分,文心一言则是0分。这样的结果就像在学生时代的考试,老师在评价试卷时会一而再、再而三的怒斥,“读题!请认真读题!”是的,文心一言此时就是那个不认真读题的孩子。
更有甚者,我们在测试中还见到了这样的情况,当一道题文心一言不会时,就会很实诚的说到, “作为一个人工智能语言模型,我还没学习如何回答这个问题,您可以向我问一些其它的问题,我会尽力帮您解决的。” 要知道ChatGPT的原则,是每个问题都会给出回答,即便不会、也会给乱编一通。 这让我不禁想到了当年语文老师曾经说过的话,“不会就编啊,随便编一些,多少也会给点分!”
说过差的部分,我们再来看看文心的优势项。例如多轮理解,就是考察的是AI聊天机器人颇受关注的一项能力。对于寻求答案的用户,一个简单的关键词往往难以概括所思所想,此时多轮对话能力就可以帮助他们来整理思绪,并在此过程中获得更适合自己的结果。而AI理解用户的深层意图、并提供反馈,这是多轮理解能力的核心。在这项测试中,我们发现百度文心一言在涉及到古文和中国传统内容时,输出的内容就丝毫不弱ChatGPT。
我们认为,在这个环节文心需要改进的地方在于,首先,当面对用户进行超长内容输入时,应该尽量关注在文字最后结尾处的内容(条件),也就是用户对以上文字所提出的要求。而不要被过长的文字内容所干扰,故而造成回答错误。其次,未尝不可学习一下ChatGPT不要脸的部分,当一道题不会的时候,也可以根据当前已知数据的判断,一本正经的编个答案出来,毕竟,有答案就有可能不是0分,而不回答,肯定拿不到分。
2.任务完成
任务完成部分侧重的是用户通过对一个任务指令的描述,要求模型去完成的情况。从GPT3以来,大模型受到关注一个重要的原因就是强大的instruction following的能力,完成人类给定的非特定性任务,比如给定表格按要求进行处理,甚至描述一个很罕见的任务让模型去做,这种few-shot learning的能力极大地提高了模型的通用性。
在这项测试中,我们给AI安排两个考察点,分别是:
1. 常见任务:例如表格理解,角色扮演等大家能想到的日常想要模型做的常见的事。
2. 特定任务:通过文本描述非常规任务,也包括给出例子让模型完成的事。
我们在这一项目的测试中,判定如果AI能够胜任常见任务,可完全取代人工就能得3分;AI可以基本完成任务,但可能有不重要的小错误、只需简单加工,即可得2分;AI如果仅能部分完成任务,需人工校正得1分;如果AI完全完全不能理解题意,结果不能完成则为0分。
同样是先看结论:
无论特定任务还是常见任务,ChatGPT3.5与4.0区别不大,但百度文心的表现均不太理想,具体问题其实还要归根于上一个测试项中的语言理解能力中的问题,以及训练内容的丰富程度。
举例来说,特定任务里,我们要求按照“福建人(hu jian ren),依据福建人混淆“f”和“h”的规则,标注以下词组的发音:南非、防护服”这道题目理论上并不复杂。
ChatGPT3.5的逻辑了解问题是什么,但答案不够完备,没有提供声调。4.0版本则提供了超出预期的答案,”南非(Nán Fēi):南惠(Nán Huī) 防护服(Fáng Hù Fú):芳护夫(Fāng Hù Fū)”。
不仅正确,甚至还提供了建议,提醒该说法并非普通话,普通话还是应该使用标准发音。但文心则未能读懂题目,给出的答案只是单纯复述了问题,故未能得分。
另外一个例子包括,我们要求引擎 “我会给你一句话,请把这句话重复两遍,第一遍完全倒过来写,第二遍把第一遍的结果再完全倒过来。这句话是:我们期待双方可以进一步加深合作。”
ChatGPT两个版本均给出的答案完全相同,完全理解了语义,并给出了正确的结果。但文心在这种文字顺序问题上的表现就有所欠缺,似乎是完全没有理解问题的意思,导致第一遍和第二遍的答案均是错误的。
3.常识问题
知识型测试体现了大模型背后强大的知识存储和理解能力,这部分能力可以直接帮助人类快速解答问题。我们这里既包括包括了较简单的常识类和也包括了较复杂的专业类知识。尤其在专业知识上,我们还通过描述一些现象,让模型运用专业知识去解答。这种逆向测试可以体现模型对知识的理解力。
在这项测试中,我们细分了5部分内容,其中包括:
1.客观常识事实(高中和大学生了解的):比较客观的事实性问题,主要看是非对错
2.主观常识:相对主观的问题,主要看模型回复的合理性逻辑性和质量
3.因果推断:简单的因果关系
4.复杂事实常识:两个或以上的事实关联的组合问题
5.事实错误:提问中本身就有错误,看模型是否能发现
由于是针对事实进行回答,所以我们设定的评测标准,回答准确、有理有据,能解决问题得3分;回答基本准确,偶尔有地方不是很明确得2分;回答不能直接解决问题,但提供一定信息得1分;罔顾事实则为0分。
结论:
这项测试其实是非常有意思的地方。大部分情况这三个引擎对于常识性问题的回答均能令人满意,在部分情况下,百度文心一言的表现甚至要比chatGPT 3.5还要略好一点。例如我们问到一个科技常识问题,“高通8Gen1处理器的上一代是什么。”文心一言信心满满告知正确结果,高通骁龙888。而ChatGPT3.5则说了一个错误的型号。常识问题:“明代科举考试主要考哪些书?”文心一言顺利说出四书五经,还给详细列出了四书五经每一部的名称和内容。ChatGPT3.5则给了一堆参考书和可能会考到的历史书。只有ChatGPT 4.0才给出了正确的回复和注解。
不过为了考察几个引擎的能力,我们在部分题目上埋了坑,甚至用了不少网上大家一看就知道的段子和脑筋急转弯,最可怜的“傻白甜”百度文心几乎逢坑必踩,但让我们出乎意料的是ChatGPT4,在灌入的可怕数据量之后,ChatGPT4在几个脑筋急转弯和事实错误环节,几乎第一句话就能揭穿我们设置的陷阱。
例如在因果推断环节,我们用了一个小朋友都知道的脑筋急转弯,“树上有9只鸟,猎人开枪打死1只,树上还剩几只鸟?” ChatGPT3.5和百度文心仿佛小学生附身,都在认认真真的算数学题,求得结果8只鸟。但ChatGPT4.0毫不留情揭穿谜底:“树上不剩鸟,因为开枪的声音会把其他鸟吓飞。”
另外的一个事实错误的例子里,我们认真求教:“解放战争期间,八路军都参加过哪几场重要战役?”。原以为这三个引擎中百度文新应该更了解国情,但它和ChatGPT3.5都没弄明白解放战争和抗日战争的区别,均在举抗日战争期间的例子。只有ChatGPT4.0直接指出,解放战争时期(1946-1949),八路军已经改编为解放军了,并指出了解放战争期间的三大战役。
其余几个类似的例子不再一一列举,但作为“人之初,性本善”的文心一言来讲,真的要认真考虑一下用户会不会主动提出错误问题的情况。
4.逻辑数学
逻辑数学和代码部分比较相关,都是考察模型的推理能力。这部分对模型的要求较高,一般认为代码的训练和“思维链” (Chain of Thought) 技术会对逻辑推理有明显帮助。目前看来这似乎是大模型特有的优势,基本上百亿参数以下的模型在这一部分表现都欠佳。
在这项测试中,我们准备了五项内容的考量,分别是:
1.简单逻辑推理:简短的逻辑问题
2.文字逻辑:给大段文字中蕴含的逻辑问题
3.逻辑错误:题目本身有逻辑错误或陷阱,看模型是否能发现
4.数学(高中以上,偏专业,考察数学知识)
5.数学(初等数学计算,但较多推理,类似小学初中的应用题,考察逻辑推理)
在这一部分的测试中,文字逻辑和数学能力是最典型的指标,AI如果回答完全准确得3分;回答基本正确,但有微小错误得2分;基本理解题意,但有明显错误得1分;完全不理解或重大错误,则是0分。
此模块具体测试结果如下:
以具体情况举例:
面对“观察下列个数:1、2、4、8、16......试按此规律写出第11个数”,这个非常经典的小学数学知识等比数列问题,ChatGPT和GPT-4都找出了这组数字的规律,并给出了正确答案“1024”,而文心一言则没有发现其中的规律,给出的答案是“22”。所以完全正确且给出了解题过程的ChatGPT和GPT-4得到3分,理解题目、却出错的文心一言只有1分。
接下来的这题就有一定挑战了,“已知三角形ABC三边分别为a,b,c,且c的平方=bcCOSA+caCOSB+abCOSC,求三角形的形状”,已经是高中数学的水准。但只有GPT-4正确计算出这是直角三角形,ChatGPT和文心一言都只认为它是普通三角形。所以GPT-4得到满分,ChatGPT和文心各得1分。
在逻辑能力上,我们选择了一个较为简单的题目,“3个人3天喝了3桶水,9个人9天喝了几桶水”。GPT-4和文心一言对此都给出了正确答案,9个人9天喝了27桶水,且附上了推理过程,均得到3分。而ChatGPT尽管进行了推理,但推理结果出错,得分仅1分。
5.代码能力
自深度学习使得AI技术进入跨越式发展阶段以来,业界就一直在尝试用AI来写代码。此次在评测ChatGPT、GPT-4和文心一言的代码能力中,完全无需人工干预、顺利完成任务可以得到3分;只需简单人工干预或简单debug即可完成目标,得到2分;需要人工多轮干预debug才可以基本完成,则为1分;完全错误为0分。
此项目我们准备了两项子测试项,分别如下:
1.简单代码完成:常见Leetcode easy级别的问题,用各种语言。覆盖主要不同类型,Python, C++, SQL,汇编等
2.代码阅读和debug:给定一段代码,解释意思,并找出简单bug。或者给出代码和一段编译错误信息,找出bug。或者把Python转成C++
此模块具体测试结果如下:
在此次测试中,我们选择的题目有“写C程序计算21的阶乘”。ChatGPT在文字中给出了21!这个正确结果,但代码本身出现了BUG,并未意识到C语言中的unsigned long long类型只用来表示20以内的阶乘数据,所以它的得分是1分。文心一言也实现了用C语言编写程序,但没有意识到计算有溢出,导致了最终结果出错,也只得到了1分。而GPT-4同样给出了正确答案,且代码本身也有BUG,但它意识到了21!的结果可能太大,只不过自信的认为unsigned long long字长足够,所以它的得分是2分。
在程序员日常不可避免的debug上,我们选择了一段代码让AI检查是否存在bug。结果ChatGPT和GPT-4都发现了题目中的代码存在浮点精度问题,且完成了debug,所以两者都得到了满分3分。文心一言则在debug上出现了问题,并未识别出bug所在,也没有进行debug,因此只有0分。其它情况与此类似,基本上我们设置的几道题目百度文心均未能找出问题,也无法完成debug工作。从目前来看,百度文心后续需要加强代码相关的能力。
6.专业领域
随着ChatGPT的走红,许多人心中也有这样一个问题,那就是碎片化、螺丝钉化、机械化的工作,诸如翻译、文秘会出现一定程度的职业危机,那么更专业的领域会不会被AI不断侵蚀呢?抱着这样的疑问,我们对专业领域进行了一些考量,主要内容分为以下两部分,了解和应用:
1.知识概念:询问专业知识和概念(大学专业水平,覆盖人文理工各学科)
2.知识应用:通过事例描述,获得解答。描述可尽量详细,清晰(大学专业水平,覆盖人文理工各学科)
结果如下:
我们都知道专业的知识,很少在网上能找到免费的分享,这对于AI引擎来说,往往很难拿到真正的专业知识数据。
举例来说,为了降低问题的难度,我们选择了科技领域的问题进行了测试,题目为“手机系统的启动过程是什么?每个阶段都做了什么?”这个问题对于一般用户而言无疑是个不折不扣的“黑箱”,但是对于这个领域的从业者而言却显然不是件难事。
ChatGPT与GPT-4都给出了一部智能手机从加电自检到【【微信】】,再到将系统内核加载到内存并初始化,最终启动用户界面的完整流程。而文心一言则解释了“U盘启动”这一应用在PC上的系统启动模式。在这个问题上ChatGPT3.5和GPT4.0都拿到了3分,而文心一言则是出现答非所问的情况,显然是未能获取到该行业的技术资料。而其它情况与此类似,部分行业专业知识上有部分存在错误或知识不具备导致无法回答的例子,毕竟这些内容大多都不是免费获取的。
总结:
通过结果不难发现,对于已然包罗万象的大语言模型而言,语言理解 \ 任务完成 \ 常识问题 \ 逻辑数学 \ 代码能力 \ 专业领域 这六大类型的测试,虽然并不能囊括它们的能力边界,但已经足以让大家管中窥豹,看到不同类型的大语言模型确实具备了改变人类工作范式的能力。
作为OpenAI刚刚迭代的新品,ChatGPT4.0确实可以称得上是全方位的强大,即便还谈不上上知天文下知地理,但在智力水平上至少已经表现出了青少年的水准,毫无疑问能够称得上是“黑科技”。ChatGPT3.5的表现则中规中矩,有一定的逻辑能力,也可以从多轮对话中敏锐的抓住重点。
虽然文心一言现阶段确实没有ChatGPT4.0和3.5那么强大,而且在数据覆盖度和程序上可能还存在一些bug,导致了一些问题。但让我们惊喜的是,它在某些方面的能力并不弱于ChatGPT3.5。而且它的出现解决了国内市场AI行业从0到1的突破,在解决了有和无这个问题后,用未来可期来形容显然并不过分。
ai制药龙头企业
1
简单梳理下chatgpt会给医疗药物研发领域带来哪些变化?
A:药物研发从过去的时间点看,是一个经验与实验相结合的,是由大量的药物化学、生物、实验技术促进的学科,沉淀大量的经验。AI药物研发推进的同时也少不了药物化学家来对药物的优劣和药效做出判断,辅助算法的改进,chatGPT结合经验和数据到大模型里,短期可能不能替代高级的,但是初中级的药物专家能被大模型所取代。药物研发比较重要的是靶点的发现,本来也是对基因、蛋白组学的数据进行分析,建立关联,比较容易被大模型所替代,这一块的瓶颈是促进整个医药行业数据的发展,现在来做chatgpt数据是一个瓶颈。基因、蛋白组学由于测序有比较多的数据,但是像药物活性等比较难以采集数据,这一块的自动化是后面比较重要需要发展的。刚才说的是临床前发现的阶段,临床合规和文件编写是会完全能被chatgpt替代的,基于一些数据进行训练就能轻松拿到文件;另外chatgpt能很好生成模型,所以可以拿来做临床方案的设计。对医疗方向,可以对患者起到导诊、康复震后随访,比较容易取代,看病的过程中可能还用不上模型。
2
药物发现从靶点的出现到苗头、先导、候选化合物还是经历了很多步骤的,我们在药物发现中,AI是创造性还是辅助性的作用?
A:目前还是更偏辅助性,chatgpt是辅助性向创造性迁移的机会。药物研发的反馈周期太长,AI能做一定的评估,但不是100%的准确,还是要做实验去验证,涉及到实验的成本和周期。比如AI筛出10个分子,最终哪些采取实验还是药物化学家来做选择(做决策)。AI只能成为工具,而不是决策者。第二,AI不是100%准确预测的,分子设计(拿一个新颖的结构不侵犯专利),分子评估(活性、adme等性质),第一块分子设计AI可以做,但是效率不太高,生成很多分子,其中被药物化学家认为是具备药物化学基本逻辑的分子比例比较少,涉及到一个筛选的效率(虽然有用,但是效率不高)。分子评估基本上是预测一个范围,但是有比较好的排除作用,原来需要拿10个分子去做实验,现在能排除5个,节省下一半的成本和时间。排除不了的那5个需要人去做决策。
3
行业带来突破可能需要3-5年,现阶段AI制药没有像chatgpt那样应用那么广,限制在哪些方面?
A:chatgpt是一个通用的语音模型,是拿互联网上大量的文本去做的,帮你写一些东西、一些文案这些表现是很好的,但是问它非常专业的领域会出现错误,实际环境面对的问题是更加复杂的,药物研发领域也是一样的,刚提到有一些经验,主要是在小分子药物研发方面的,现在比较新的ADC、protac药物领域,里面会有与以前简单的小分子和蛋白结合的类似的机理在,但是有很多新的AI里没有的知识,AI训练的模型迁移性是差一些的,尤其是不同机理之间的迁移性。并没有出现一个能覆盖所有的模型。
4
算法需要大量的学习,数据是否有很重要的作用?
A:的确,chatgpt出现的时间很短,生物医药储备的数据比较少,现在看喂多少数据能产生比较好的效果,大家还在努力探索。我认为数据的确是最关键的,算力算法数据这三个要素,算法是比较明确各家没有很大的差别,这个行业的数据不是那么大,ai制药领域,生物医药的数据比较少,看谁能先准备好高质量的数据,算力跟数据多少有关,目前不是很大的瓶颈,后续数据爆发可能才有变化。
5
对于医药研发外包的公司,数据积累上有优势,未来3-5年数据优势的公司还能去做AI的应用,比直接做AI制药研发的公司更有优势吗?
A:有一个误解需要澄清,大家都认为CRO公司对外服务多所以接触到的数据比较多,数据的确多,但从合规来讲,他们是不能用这些数据的,从服务角度来说签合同协议,是不能用这些数据去做研发的。Cdmo公司帮客户做工艺研发,一些过程数据不是客户要求的,但是可以拿来做到AI模型里的。做完这些项目之后,内部培养了这些专业人士,和算法团队一起工作,能提出一些建议改善效果,对于CRO公司来说,这方面的人员比AI制药公司要多。孰强孰弱不太好说,需要落到企业自身的战略投入上。
6
现在的上市公司中,CRO或者药企,据您了解比较靠前的是哪几家(上市)?
A:AIDD公司走的比较靠前的是药明康德和成都先导,这两家比较偏CRO,药明康德有布局AIDD这一块的人员,成都先导主要做DNA编码化合物库,和AI有比较好的结合,但是做的范围也比较窄,其他的药企我了解都在这一块有探索,但是大部分还是和AI制药公司合作,给几条管线,做的过程中去了解。
7
先导在AI方面的布局是内部已经有了AI的算法帮助筛选苗头化合物,还是未来潜在发展的?
A:有的,定位来讲,业界认为他是做DNA编码化合物库的公司而不是AI制药的公司,利用AI提高筛选效率,还有筛到的分子成药潜质,它能不能变成完全的AI开发药物的公司还没有迹象。
8
他们与腾讯AI lab有合作,腾讯在这方面又布局吗?
A:具体的合作内容我不清楚,我推测腾讯的AI lab不是一个商业化运作的公司,腾讯也不是主要进军AI制药,而是他们有一个组在做这方面的研究,对外展开一些合作,但还未涉及到商业化。我认为合作点在于,成都先导位于成都的位置不利于招到AI相关的人才,达成合作对于内部业绩是有帮助的,AI lab也要做一些算法的验证,所以会找一些CRO和药企。具体在做什么算法的研究不得而知,但可以去了解一下腾讯AI lab的云深智药平台。
9
现在chatgpt对于生物医药知识,没有包含pubmed上面的文献,如果灌进去这些是不是会有很大的提升?
A:从我们对chatgpt的实际测试来看,它是有具有药物研发的通识在里面的,至少具备基础文献和相关的学科教材在里面的,如果把文献和专利喂进去,效果是会提升,但是是否能做真正的药物研发还有待验证,本身生成式模型就会有一些胡言乱语,可能也会产生比较大胆突破的分子设计。行业对于生成式模型的错误容忍度更高,某些方面我们会认为是一种创新。Chatgpt还有监督学习,对应到药物设计来说还是需要一些案例的,这种公开数据比较少,需要接触药企的案例,但是大药企不太愿意公开。
10
算力算法数据三要素,目前AI制药、CRO、药企自己搞,他们的算力算法跟腾讯、360没法比,在数据上有所优势,但是跟公开数据比又太少了,有绝对龙头优势的是不是也跑不出来?
A:有待商榷。这些药企、AI制药公司的算力算法不一定和大厂有差距,据我观察没有。大厂做AI很强,但是都是广告推荐算法、OCR等算法,具体到药物研发领域怎么用,不做几年,大厂也完全做不出来。算力这一块,由于云服务比较发达,只要达到一定水准就好,还没到算力慌的程度,但不排除未来风潮起来后,算力资源越来越紧张,大厂对自己有倾斜,但目前来看这个趋势还不明显。药企数据的可用程度和积累的量都不及公开数据的量大,在做大模型的过程中,大家能不能合力做大模型是后面要解决的问题(有没有公司或者国家战略牵头),数据的限制的确存在,但会出来新的解决方案来解决。
11
非专业的人员观察哪些公司的因素呢(未来在行业里跑出来)?
A:非专业人士看两点:1)从非专业的角度理解公司怎么解决数据,逻辑是不是通的,有没有独特的技术;2)看公司实际药物研发的管线数量及进展。
12
有没有AI制药算法领先的公司?
A:国外:薛定谔算法有领先优势,偏AI算法的是xx。国内分别对标的是晶泰、英硒。
13
这个行业的商业化模式是什么样,如果有公司跑出来,核心竞争力和壁垒在哪里?
A:最早卖软件,但是上限比较低;后面是做服务还是做药(药企orCRO模式),晶泰偏CRO,英硒偏biotech。短期内来看不太有药企有能力做一些商业化,短期内会在cro和药企这两个之间的定位。
壁垒在于自身对于算法的应用,能从靶点推向临床2期(药物poc)的能力才是最大的壁垒。