清华AIR开源轻量版BioMedGPT！聂再清：要做生物医药版ChatGPT

互联资讯 2023-04-29 17:48:06 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

清华大学聂赞,清华大学聂鑫教授,清华大学聂建国教授,清华大学聂本典

清华AIR开源轻量版【【淘密令】】！聂再清：要做生物医药版ChatGPT

衡宇萧箫发自凹非寺

量子位 | 公众号【【微信】】

生物医药研发领域，一个名为 【【淘密令】】-1.6B的轻量级科研版基础模型刚刚开源。

参数16亿，最大特点是 跨模态与知识融合。

训练数据中，包含分子、文献、专利、知识库等多尺度 跨模态的生物医药大数据，并融合分子结构、知识图谱和文献文本中的知识，用于增强模型的泛化能力和可解释性。

应用任务上，【【淘密令】】-1.6B则展现出了通用能“打”的效果，可以处理药物性质预测、自然语言类、跨模态等多种任务。

打造这个【【淘密令】】-1.6B生物医药基础模型的团队，来自 清华智能产业研究院（AIR）。

项目负责人 聂再清，清华大学国强教授、AIR首席研究员，主要研究领域是大数据与AI的前沿创新，以及在健康医疗领域的产业应用，更早之前则以阿里达摩院大牛、天猫精灵首席科学家为人熟知。

△聂再清

此次开源的【【淘密令】】-1.6B，其实是他和团队正在做的 【【淘密令】】的单机轻量版，后者是一个适用于生物医药领域研发的通用大模型。

1.6B版本先行开源，目的是小试牛刀，同时让行业相关科研人员有东西可用。

所以，这个【【淘密令】】究竟是做什么的，团队目前进展如何？在业界已有不少生物医药专业大模型的情况下，做通用大模型的考量是什么，又要如何去做？

聂再清教授向我们解答了背后的思考。

生物医药版GPT，也应具备“涌现”潜力

先来看看【【淘密令】】究竟是个什么项目，进展到了哪一阶段。

聂再清教授认为，就像ChatGPT成为了NLP领域的基础大模型一样，【【淘密令】】也会成为生物医药领域的基础大模型。

但在这里，“像ChatGPT”并不仅仅意味着【【淘密令】】=生物医学大模型+对话能力，而是和ChatGPT一样，会出现 智力涌现的情况。

只不过，这里的“智力”，指的是 生物医学领域方面知识的理解、规律的发现与灵感的启迪。

这个基础模型的底座能够给药物发现、分子/蛋白质设计等应用提供底层能力，同时能够成为生物医药研究者的助手（Copilot）辅助研究者更高效的开展研究探索。

所以，能实现这种效果的【【淘密令】】，架构上究竟长啥样？

整体来看，它是一个具备多个输入Encoder的模型，这些Encoder会先分别处理不同模态的输入，如分子、蛋白质和文献等。

然后，将这些不同模态的输入，进行统一表示处理，这样就能学习到不同模态之间的关联知识。

这给了模型“融会贯通”的能力，既可以读文献、查专利，又可以读分子序列、蛋白结构、实验数据。

不仅如此，【【淘密令】】也是 首个将多模态知识引入模型构建的项目，通过知识图谱的方式将生物医药领域的知识注入到模型中，以增强模型的泛化能力和可解释性，同时能够应对科研领域知识的快速更迭，让模型持续学习，变得更“聪明”。

基于这种融会贯通与知识增强的能力，【【淘密令】】在下游的多项任务中表现出了整体的效果提升。

目前团队已经完成了实验验证阶段， 用一个比较小的端到端模型证明了这种思路的可行性。

那么最终能在生物医药方面表现出“智力涌现”的模型，预计在什么规模？

聂再清教授认为，模型参数量级预计在 几百亿左右，而训练这一模型达成“涌现”效果的数据量， 几十亿到百亿级应该也就够了。

事实上，在ChatGPT出现之前，也就是一年多以前，聂再清和团队就已经在筹备这一项目，目前清华AIR生命科学相关团队规模已经达到50人左右。

对于【【淘密令】】的未来，聂再清教授很有信心：

预计两年内，这个模型应该会在小范围内具备一定影响力，至于像ChatGPT那样成为行业通用大模型，做到那样的影响力可能至少还需要3~5年。

但即便如此，【【淘密令】】模型究竟能否成功，目前仍旧是一个未知数。

同时对于大模型训练必不可少的算力和数据等方面，也仍然是业界关注的话题。

对于这些观点和想法，聂再清教授又是如何看待的？

“一个理性而大胆的尝试”

大模型的发展和AI技术的更迭组成了ChatGPT为首的一波AI新浪潮。

但早在聂再清教授动念要将生物医药学科知识“塞”进大模型里时，ChatGPT还没打破沉寂。

所以为什么要做？为什么敢做？

时间回到ChatGPT刮大风之前。当时，GPT-2已经可以编故事，下象棋；等到1750亿参数GPT-3出现，已经博得众人瞩目：不仅延续了前代编故事的能力，还能写代码、答问题……

利用大规模文本数据学习语言知识和规律，加上狂叠参数的暴力美学，GPT-3已经在通用领域任务中出现涌现能力，到GPT-3.5，基本的逻辑推理能力突然出现。

在生物和化学领域，生命的本质可以看做一种精密的编码语言，尤其是生命科学领域中微观世界的分子序列数据。

聂再清教授认为，自然语言同样也是一种非常精密的序列，缺一点或少一丝都会让意思变得不一样，因此二者具有类似的特征。

基于此，大模型的底层思想或许有用于生命科学微观数据处理的可能。如果能实现，就能利用生物医药领域的专业知识，帮助完成科研任务。

工作正式开始之前，团队将微观（基因、分子、蛋白质、细胞）与文献知识压缩到一个端到端的模型里，用实验验证了这条思路的可能性――确实在部分药物研发关键下游任务中取得SOTA效果。

于是，做一个适用于生物医药领域研发的基础大模型这事，正式开始了。

此前，无论是单独针对分子、蛋白质还是生物医药领域文献，都有团队单独打造过大模型，但还没有人做一个行业通用的多模态版本。而现在的开源版本【【淘密令】】-1.6B，并非一个接近AGI甚至与ChatGPT能力媲美的版本。

“毕竟大家的期待比较高，我们还是要把期待降下来，”聂再清教授解释选择现在向外界告知进度的原因，大方表示目前还达不到理想状态的能力，“实际上，我们最主要还是想把现有工作服务到正在进行相关研究的科研人员。”

但这样的尝试，被聂再清教授称为一种 理性而大胆的选择。

理性，是因为通过实验，确实发现人类知识经过encoder后，能够产生帮助；大胆，是因为一方面还未完全证明这个工作的商业实用价值，工作还在初步阶段，模型的规模和模态的种类都有待扩大。

但在这个乐观的估计下，工作还是推进了；不仅推进，还快速拿出了轻量级版本。

乐观倒不是因为没由来的盲目，聂再清教授表示，数据、算力和成本上，【【淘密令】】暂时都不存在什么担忧：

数据质量上，生物医学领域的论文和专利质量“还是很高的”，不必过于担心训练语料质量不高的情况，并且目前已公开的PubMedQA等数据集，数据量“已经足够”。

同时，团队集合了具有生物医学专业背景的同学，对数据集的构建做了精细专业的设计和专业的标注。

当然，还有一些任务所需的私有数据，【【淘密令】】希望通过未来的双通道干湿闭环得到补充。

算力层面，聂再清教授是这样表示的：

目前国内敢跳出来宣布入局大模型的团队，背后肯定已经有足够的算力支撑规划。

数据丰富但公开，算力稀缺但不是无法解决，日后入局者纷至沓来，是不是会在壁垒很薄的情况下形成不必要的行业竞争？

聂再清教授表示了对这个问题的否定，他认为做的人越多，意味着关注度越高，最终的结果就是利好行业内所有的AI制药公司。

最后，我们也朝聂再清教授抛出了那个灵魂问题――

生物医药研发阶段，一切都容不得半点差错， 怎么约束大模型的幻觉？

聂再清教授说了段绕口令般的话：

我们当然希望，大模型知道“自己知道什么事”，也知道“它知道自己不知道什么事”。但，目前确实也会出现大模型“不知道自己不知道”的情况。

而大模型“不知道自己不知道”，就是我们常见的大模型幻觉――它以为自己知道，其实它不知道。

针对生物医药领域解决的思路，是通过 两个闭环来实现对模型的“纠偏”。

干湿实验验证通过湿实验，将模型真实性趋近物理真实世界； 专家在环可控的设计，则通过专家instruct，让模型与人类专家认知趋近。

换言之，通过“做实验”和“跟专家学”两个环路，让AI模型幻觉降低。

聂再清与团队的下一站，就是通过两个闭环，尽可能扩大“大模型知道自己能做啥”的范围，以进一步降低大模型“不知道自己不知道”的比例。

对于此次开源，中国工程院院士、清华大学讲席教授、AIR院长 张亚勤院士表示：

将大模型范式应用于生命科学是理性又大胆的探索。

AIR的研究团队以构建生物医药领域大模型为目标，相继研发了多个生物医药专业领域的AI模型，在蛋白质结构预测、抗体设计等领域取得了不错的成果。

此次开源的轻量级科研版基础模型【【淘密令】】-1.6B是在生命科学领域的重要进展。

未来，研究团队将继续用【【淘密令】】进一步整合领域内多源异构的数据，将知识融入模型构建之中，实现生物世界文本和知识的统一表示学习，带来生物医药领域的“智能涌现”。

开源地址：【【网址】】/BioFM/OpenBioMed

― 完 ―

量子位【【微信】】・头条号签约

关注我们，第一时间获知前沿科技动态返回搜狐，查看更多

责任编辑：

auto gpt和chatgpt有什么区别 chatgpt 普通用户能用gpt-4吗

淘宝GPT账号购买，ChatGPT国外账号

如果你正在寻找GPT账号以获取更好的用途，那么你一定需要了解一些相关的信息。在这篇文章中，我们将介绍淘宝GPT账号购买，以及ChatGPT国外账号的相关内容。我们将详细描述这些账号的优势，以及购买这些账号的实用指南。所以请耐心阅读我们的文章，从中获取你所需的信息。

首先，让我们来了解一下究竟什么是GPT账号。GPT是【【微信】】ng Transformer的简称，是一种先进的人工智能技术。它可以很好地模拟人类的语言能力，包括自然语言处理、文本生成等方面。因此，GPT在新闻、电商、医疗等多个领域得到广泛应用。而获取GPT账号就成为了这些领域中不可或缺的一部分。

GPT账号的使用价值在于可以帮助企业有效地提升工作效率，降低成本，提升全球竞争力。例如，在电商行业中，GPT账号可以帮助商家更好地智能化运营，提升销售额和用户体验，增强竞争力。在医疗行业中，GPT账号也可以帮助医生更好地分析和处理病例信息，提高诊疗水平。因此，GPT账号的重要性不容忽视。

接下来，我们将介绍淘宝GPT账号的购买方式。淘宝作为国内最大的综合性电商平台之一，其商品种类丰富，价格透明，深受广大用户的喜爱。因此，在淘宝上购买GPT账号也是一个不错的选择。在淘宝上，你可以找到各种类型的GPT账号供选择，例如ChatGPT国外账号、中文GPT账号等。无论你是需要在国内还是海外使用，都可以从淘宝上找到合适的GPT账号。

具体来说，在购买淘宝GPT账号时，你需要注意以下几点：首先，选择信誉良好的商家。在淘宝上，信誉和评价非常重要，因为它可以帮助你预估商品质量以及商家的信誉度。其次，选择价格透明、质量有保障的账号。不同的GPT账号在价格和质量上都有所不同，你需要根据自己的需求进行选择。另外，购买时需要注意支付方式安全，避免因支付风险导致经济损失。最后，购买前一定要了解商家的退换货政策，以免在使用过程中出现问题而无法退换货。

在购买淘宝GPT账号的过程中，你还需要了解ChatGPT国外账号的相关内容。ChatGPT是一种国外的GPT账号，有着更为先进的技术和更加丰富的语言库。因此，在一些特殊领域中，使用ChatGPT账号可以带来更好的使用体验。同时，ChatGPT账号也比国内版的GPT账号价格略高，但是在许多应用场景中，这种账号的优势往往超过了它的价格。因此，如果你需要在一些特殊领域中使用GPT账号，那么ChatGPT国外账号是一个不错的选择。

总之，在购买淘宝GPT账号时，你需要注意商家信誉、账号价格和质量、支付方式安全、退换货政策等细节问题。同时，在购买之前，你需要对不同种类的GPT账号有一定的了解，以便选择最适合自己的账号。希望本文能够帮助到你，让你在使用GPT账号时更加得心应手。

本文地址： https://www.528683.com//show-404564.html