庆云古诗词

庆云古诗词

山石发声|风暴眼中的ChatGPT,看NLPer怎么说?

互联资讯 0

淘宝搜:【红包到手500】领超级红包,京东搜:【红包到手500】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】

播放山石,山石coyi,山石qos,山石waf

当前科技领域最有热度的话题,无疑是OpenAI 新提出的大规模对话语言模型ChatGPT,一经发布上线,短短五天就吸引了百万用户,仅一个多月的时间月活已然破亿,并且热度一直在持续发酵,各行各业的从业人员、企业机构都开始体验关注甚至自研“类ChatGPT”模型。这里,笔者从一位NLP从业人员的角度谈一谈对ChatGPT的一些看法和思考。

2018年,谷歌提出BERT(Bidirectional Encoder Representation from Transformer)模型,一时之间疯狂屠榜,在各种自然语言处理领域建模任务中取得了最佳的成绩,NLP自此进入了大规模预训练语言模型(Large Language Model,LLM) 时代

BERT做了一件什么样的事情呢,我们通过以下例子做个说明:_____和阿里、腾讯并中国互联网 BAT 三巨头。上述空格应该填什么呢?有的人说“百度”,有的人回答“字节”……不论填什么,都表明,空格处应该填写的信息是受到上下文决定和影响的。BERT所做的事就是从大规模的文本语料中,随机地MASK掉一部分字词,形成如同示例的完形填空,然后不断地学习空格处到底该填写什么。通过这种形式不断的迭代训练,并结合其它语言学任务优化微调模型,从而让BERT模型可以关注到文本语料的上下文信息。所谓语言模型,就是从大量的数据中学习复杂的上下文联系。

2018年6月,OpenAI 早于 BERT发布了一个GPT 模型,大致思想是一样的,都是基于 Transformer 编码器,获取文本内部的上下文联系。在语言模型中,编码器和解码器都是由一个个的 Transformer 组件拼接堆叠在一起形成的。BERT使用了Transformer的Encoder编码器部分进行模型训练,更适合语义理解相关任务,GPT使用了 Decoder 部分进行模型训练,更适合文本生成相关任务。

图注:Transformer编码器 Encoder-Decoder结构

自从 BERT炸街后,各种变体改进模型越来越多,比如 ALBERT、ROBERTA、ERNIE,BART、XLNET、T5 等等。最初,预训练任务仅仅是一个完形填空任务就可以让模型有了极大进步,那么,如果给 LLM 模型更多语言题型,应该可能会对模型训练有更大的帮助。于是。句子乱序、多项选择、判断、改错等任务题型纷纷被构建并塞到BERT模型预训练阶段,各种任务数据集如机器翻译、文本摘要、问答理解等全部添加进去提升训练阶段的复杂度和预期效果。GPT-2 就是在 GPT模型的基础上,添加了多任务学习,同时扩增了数据量和模型结构参数,进行更深的训练迭代。其整体测试效果如下:

图注:GPT-2论文实验效果图

GPT-3 模型所采用的数据量达到45TB,模型参数量达到1750亿,模型训练学习和计算复杂度远超以往所有模型,上一代GPT2模型参数量仅有15亿,用了40G训练数据。GPT-3的大模型计算量是 BERT的上千倍,如此巨大的模型造就了 GPT-3 在许多困难的 NLP 任务,如撰写复杂逻辑的文章,编写SQL查询语句、chatgpt或JS代码上都有更优异的表现。

一般预训练模型的使用都是两段式的,先用大规模数据集对模型进行预训练,再利用下游任务标注数据集进行 Finetune,这也是绝大多数 NLP 模型任务的基本工作流程。GPT-3 开始颠覆了这种认知,提出了一种 in-context 学习方式,举个例子:

用户输入到 GPT-3:你觉得 Jieba是个好用的工具吗?

GPT-3输出1:我觉得很好啊。

GPT-3输出2:Jieba是什么东西?

GPT-3输出3:你饿不饿,我给你做碗面吃……

GPT-3输出4:Do you think jieba is a good tool?

对于不同的任务场景,GPT-3模型输出不同的答案更符合预期。in-context 学习方式正是对此添加了情境引导:如用户输入到GPT3:“请把以下中文翻译成英文:你觉得 Jieba是个好用的工具吗?”显而易见,GPT3模型可以针对性的回答输出4是最优答案。整个学习机制类似于前不久比较火爆的Prompt-Learning,使得GPT-3模型异常强大。

GPT系列模型都是采用Transformer模型结构的 Decoder部分进行训练的,更加适合文本生成任务。即输入一句话,输出也是一句话的形式,可以称之为对话模式。这引出了本文的主角ChatGPT,一种优化的大规模对话语言模型,新一代GPT-3.5。ChatGPT 模型结构上和之前的 GPT-3模型没有太大变化,最主要变化的是训练策略变了,引入了强化学习(Reinforcement Learning, RL)进行模型训练,添加合理的奖励机制让模型能更好的理解和适应各种场景。

2017年,AlphaGo围棋博弈击败了柯洁,引起了一波新的人工智能浪潮和思考,强化学习如果在适合的条件下,完全有可能打败人类,不断的成长,逼近极限完美的状态。强化学习是一种新的学习机制,就像生物进化一样,模型在给定的环境场景中,不断地根据环境的惩罚和奖励(reward),拟合到一个最适应环境的状态。AlphaGo就是一个典型的成功示例。同时这也引发了新的思考,NLP + RL,可以做吗?怎么做?很多人可能都会觉得不太合适,自然语言处理所依赖、所研究的环境,是整个现实世界,是一个通用场景,这使得无法设计反馈惩罚和奖励函数能够很好的与之相匹配。除非人们一点点地人工反馈,或者把研究目标场景限定在某一个垂直限定领域。OpenAI 提出的 ChatGPT 把这件事实现了,他们雇用40个外包,进行人工标注反馈和奖励,参与模型的迭代训练,这种带人工操作的 reward机制,被称之为 RLHF(Reinforcement Learning from Human Feedback)。整体操作过程如下:

(1)搜集说明数据(prompt训练方式,引入人工),训练监督策略;

(2)搜集比较数据(引入人工排序),训练奖励模型机制;

(3)搜集说明数据(新的prompt抽样),使用PPO强化学习优化迭代模型

经过不断的训练、学习、迭代反馈,ChatGPT模型不断优化提升并最终呱呱落地,开启对外公众测试,成功赢得了全球相关科研及从业人员的掌声,诸多企业及研究机构开始投入自己的“ChatGPT模型”研究。

ChatGPT使用了Transformer神经网络架构,即GPT-3.5架构,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与真正人类几乎无异的聊天场景进行交流。ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等NLP领域建模任务。

  • 理解乱序文本(语言模型)

  • 信息抽取

  • 问答理解

  • 做高数题(文本理解)

  • 写文章(文本生成)

ChatGPT 预训练语言模型集自然语言理解(NLU)、自然语言生成(NLG)于一身,它的影响在 NLP 领域可以划分为三个层级:

(1)语言理解:ChatGPT 模型的 NLU 能力是通过对大规模数据集的训练来构建的,拥有非常强大的解释力和语义理解能力;

(2)技术整合:ChatGPT 不仅可以应用在 NLU 领域,还能够跟其他领域的技术整合,如机器视觉、机器翻译等等,以实现多种场景模态沟通融合;

(3)对话管理:ChatGPT 能够有效的模拟真实对话场景,可以实现自然的语句转换和上下文恢复,能够更准确的回答用户的查询和了解用户的意图。

传统 NLP 技术依赖于大量数据集和算法,这意味着技术的设计实现,需要开发者们耗费大量的时间和精力来整理和准备数据,以便计算出有效的输出结果。ChatGPT模型为用户提供了一种全新的方式,该方式可以在更短时间内生成出更具有代表性的结果,这对于 NLP 迅速应用落地和迭代具有重要作用。ChatGPT 还可以很好地处理大量未标记的数据,从而极大地提升了 NLP 技术的灵活性和可扩展性。同时,ChatGPT 模型可以弥补 NLP 技术在语义理解准确率上的不足,以更精准的方式处理复杂问题,从而使机器学习更加准确和全面。

此外,ChatGPT 的出现会给安全问题带来巨大挑战,ChatGPT 技术的准确性和先进性可能会威胁到一些有关网络和数据安全领域的要求,鉴于其高准确率,ChatGPT 可能会更容易被滥用。例如,ChatGPT 技术可能受到不法分子的滥用,从而加强他们利用自然语言处理进行入侵和盗取信息的行为,并带来许多安全风险,以及使用 ChatGPT 引发的文本识别隐私可能性等等。特斯拉CEO马斯克也感叹:“我们可能离强大到危险的人工智能不远了”。

虽然ChatGPT模型可能会带来一定程度的安全问题隐患,它对安全领域发展的推动和促进作用有着更重要的意义。以ChatGPT模型在数据安全领域的应用为例,我们来考虑一个敏感关键信息识别的任务,当模型可以在任意场景下准确的识别出敏感信息数据,我们就可以更有效的保护重要数据避免意外泄露,造成用户潜在损失。ChatGPT模型在这里会有怎么样的效果呢?考虑到它的RLHF训练学习奖惩机制,我们可以通过不断的投喂数据进行迭代反馈,告知模型哪些属于敏感信息,哪些文本数据非敏感,ChatGPT会逐渐的学会对敏感文本信息的识别和判定,甚至对于新的场景和类型文本也会拥有挖掘定义及识别敏感信息的能力。接下来,敏感信息识别的问题就转化为了数据问题,这似乎是一个可行的解决思路?

无可厚非,ChatGPT模型目前针对明确的任务及问题,很多时候会给出甚至比人类更专业、更合理的答案,远超预期,可能给我们的工作和生活会带来诸多便利;但是它有时候也会写出看起来似是而非的答案,可能会出现一些重复的词句,无法分清楚事实等等,其创新性和创造性也有待更精细的考验。同时,ChatGPT模型带来的风险和诸多问题也是我们不容忽视的着力点,甚至已经在我们的日常社会生活中产生了一些不好的影响,如果你有关注相关新闻消息的话。当然,未来的ChatGPT肯定会更加强大。数据+算力+算法,当所有的条件都水到渠成,ChatGPT模型可以走多远呢,我们可以把它交给时间来见证。



对话元语智能:做中国版ChatGPT,为什么坚持大模型开源路线? 元语言功能举例说明

元语功能,元语言是什么意思,元语用是什么意思,云南元语科技有限公司

作者 | 赵健在ChatGPT刮起AI风暴之后,国内的大厂迅速跟进,百度、阿里、网易、科大讯飞等均表态,争做中国版的ChatGPTChatGPT是一个聊天机器人,要想从产品形态上复现其实并不困难,过去的苹果Siri、微软小冰、各个平台的客服机器人都是类似形态。

但ChatGPT与它们真正拉开差距,从“人工智障”到“人工智能”的关键一跃,靠的是chatgpt的AI大模型能力国内大厂也曾推出过大模型,但与chatgpt相去甚远,有人评价差距至少在1~2年而国内创业公司做大模型,更是屈指可数。

位于杭州的元语智能,算是其中一家元语智能孵化于中文NLP开源社区CLUECLUE成立于2019年,是第一个大规模的中文语言理解标准评价体系,阿里、华为、百度、字节跳动、美团、网易、OPPO、招商银行等知名大厂都使用了CLUE的评测基准。

元语智能创始人、CEO徐亮同时也是CLUE的发起人,此前在AI+RPA厂商实在智能担任算法合伙人;张轩玮为联合创始人、CTO,也是CLUE联合发起人及副会长,毕业于北京大学,此前在爱奇艺从事NLP大模型和机器翻译等相关工作;朱雷为联合创始人,COO,曾在平安和阿里达摩院从事NLP产品设计相关工作,在AR独角兽Rokid负责算法应用产品相关工作。

元语智能成立于2022年11月不久之后,ChatGPT的横空出世为元语智能的产品节奏推了一把力12月30日,“元语智能”微信小程序(英文名ChatYuan)发布测试版,被称为国内首个中文版ChatGPT,2月份在互联网引发热议。

创业公司做大模型,很多人并不看好毕竟,chatgpt因训练其GPT模型,大概花费了1200万美元在原美团“二号人物”王慧文宣布拿出5000万美元组队后,有证券分析师隔空吐槽:5000万美元够干什么?大模型训练一次500万美元,训练10次?。

不同于ChatGPT的闭源模型,“开源”是元语智能的基因由于早期做了很多开源工作,孵化于CLUE的元语智能也获得了社会各界以及多个云厂商的支持,进而解决了早期模型训练的资源问题开源大模型并非个例就在三天前,Meta宣布推出媲美ChatGPT的LLaMA大模型,也是一个开源工具。

用开源的方式做大模型,会是未来一个方向吗?近期,「甲子光年」采访了元语智能三位联合创始人,围绕国产大模型的发展进行了深入的沟通1.谈创业:ChatGPT给我们的产品推了一把力甲子光年:是怎么想到做大模型创业的?。

徐亮:现在大家说进入了AGI(通用人工智能)时代,在过去大家叫“大规模多任务”阶段像谷歌、Meta等科技公司都针对大模型多任务有相关研究,这比更早之前一个模型支持一个任务有了很大的进步但绝大多数都是英文任务。

2019年我发起CLUE开源社区,目的就是整合全球的中文数据集,给国内外中文领域的NLP模型做测评基准之后,我们孵化元语智能,在中文领域的大规模多任务方向上做了大量的工作2022年10月,我们发布了7.7亿参数的 PromptCLUE 开源模型,能够支持理解类、抽取类、生成类等所有类型的中文任务,并在此基础上构建了ClueAI的API服务,累计访问量接近800万次了。

2022年11月,元语智能作为独立公司正式成立甲子光年:11月30日ChatGPT发布,你们用过之后有什么感受?徐亮:当时我们也看到了好多的报道,试用之后发现比之前的能力提升了一大截,超过了人们对AI的普遍期望值。

我们认为这是一个很大的趋势所以我们基于在PromptCLUE上的技术和数据积累,在12月30日――ChatGPT推出后的不到一个月――发布了ChatYuan,是国内首个基于百亿参数的中文大模型功能对话产品。

我们的目标是做一个中国版的ChatGPT甲子光年:PromptCLUE与ChatYuan是什么关系?张轩玮:这种关系可以简单类比为ChatGPT与GPT-3,但不完全一样PomptCLUE是一个中文多任务大模型,基于大量无监督和有监督数据,并结合prompt的优化方式进行训练。

ChatYuan在多任务大模型PromptCLUE上,进一步结合人类反馈数据,利用强化学习方式来迭代模型,更好地理解人类意图微信小程序与网页版用的都是ChatYuan百亿参数的模型,也可以通过API的形式调用。

甲子光年:ChatGPT的出现,有没有改变你们产品发布的节奏?朱雷:从技术演进的角度看,并没有特别干扰但产品推出的节奏确实有影响,我们重新做了产品梳理,包括小程序和网页版的产品设计,也有了一些新的思考ChatGPT是促进我们产品往前走比较大的动力。

甲子光年:ChatGPT发布之前,AI大模型实际上早就存在了,为什么那时候大模型的关注度并没有现在高?徐亮:过去大家也在谈大模型,比如chatgpt的GPT-3、谷歌的Flan-T5,能够解决各种生成类、写作类任务,但实际上并没有跟业务有太多结合,而且使用门槛较高,需要有一定的技术背景。

张轩玮:大模型在技术领域已经研究了很久,并且基于Transformer做大模型已经基本达成了共识,只不过过去这件事没有出圈GPT-3当时在人工智能圈子还是掀起了一波小的浪潮的,大家都觉得生成式能力非常强,未来想象空间比较大,但当时没有产品化,没有真正地跟场景做结合。

现在ChatGPT出来后,让人们看到了AI边界是超出我们想象的甲子光年:元语智能微信小程序上线3天就下线了,原因是什么?朱雷:网上一些截图显示的回复是网友“恶搞”的,现在申诉重新上线已经通过了我们现在在优化和完善功能,所以现在打开小程序的说法已经不是“违规下线”,而是“系统更新维护中”。

预计很快会重新上线甲子光年:目前的融资进度是怎样的?徐亮:目前来看融资情况还是比较顺利的天使轮已经推进到非常靠后的阶段,下一轮也已经在筹划中我们会在合适时机进行披露甲子光年:现在团队有多少人?徐亮:现在在扩大规模的过程中,今年预计会达到30人的规模。

之前是小团队在加速迭代的过程甲子光年:您现在还是CLUE的会长吗?元语智能与CLUE现在是什么关系?徐亮:组织上完全独立,但研究上有合作,我与张轩玮是以个人的名义参与到CLUE的运营和推广,但我们的主业是元语智能。

未来CLUE和元语智能肯定是要共同推动大模型与开源事业的进步2.谈成本:云厂商给了很大的支持甲子光年:大模型的训练成本非常高,元语智能是如何解决训练成本问题的?徐亮:在国外训练一个千亿参数模型,成本大概在450万~1000万美元之间,在中国至少也需要同等量级的人民币。

大家也在做降低训练成本的实验,比如只是在13亿参数的InstructGPT模型上结合人类反馈强化学习机制,能够超越1000多亿参数的模型几十亿参数的模型训练成本是大幅降低的,所以你要达到一个“相对可以”的效果,真正消耗的资源会小一些。

我本人从2016年开始做开源2019年成立CLUE之后,基于中文数据集和基准发布了很多项目,获得了开源用户和社会的广泛认可在孵化元语智能的过程中,我们也在持续地推进开源工作,并且已经开源了PromptCLUE等模型,。

从而获得了一些云厂商的支持,他们为我们提供了基础算力甲子光年:云厂商的支持形式是什么?徐亮:是以算力资源的形式支持,对于大模型研究来说,这是很重要的因为云厂商也对开源事业抱有一定的热情,他们也愿意承担一些社会责任,所以会对开源做一些赞助。

近期因为ChatGPT发展迅猛,打破了很多人的固有认知,国内某大型云厂商高层还来到杭州跟我们讨论后续的深度合作甲子光年:计划跟一家云厂商合作还是多家?朱雷:目前是很开放的,因为CLUE、元语智能的理念和信仰就是开源。

同时我们也在考虑与国产自研芯片厂商进行合作,建立自己的GPU计算集群甲子光年:chatgpt训练GPT-3模型,用了45TB的文本数据训练ChatYuan用了多少数据?徐亮:45TB是原始数据,过滤之后大概是 600~800GB,ChatYuan的无监督语料差不多在同等量级。

但ChatYuan在中文语料方面要比GPT-3更多,有千亿级别的字词、数亿级别的对话数据甲子光年:数据质量是怎么做的?张轩玮:数据是我们团队的优势我们从2019年开始做CLUE,发布大规模、高质量的中文数据集,并形成了一些任务基准。

另外一方面,去年我们在孵化期间有专门的数据标注团队,并且也花了大量的时间和精力,去研究如何结合模型进行自动化数据质量提升在中文数据的认知层面,我们走在国内的前列当然我们也承认,国内的数据质量和标准化程度、规模还有很大的优化空间。

甲子光年:为什么中文数据集相比国外比较落后?徐亮:是开源的生态和程度不够国外有很多框架、工具,把数据集进行了标准化的集成在中文环境你可能经常看到各种各样的数据,但又非常分散零碎另一方面,很多数据都是掌握在平台级企业里面,形成了数据“孤岛”,因此,中文语料的开放程度和标准化程度还不够。

甲子光年:CLUE的数据集是开源的,其他公司也可以使用元语智能在数据层的优势是什么?徐亮:没错,CLUE的开源数据集各个厂商都可以使用,但对于数据的提纯、数据测评基准的认知,是我们的优势基于对数据的认知,我们在2021年、2022年做了data-centric AI相关的中文项目,构建了基于大模型的数据标注工具。

另一方面,一些数据集我们通过CLUE的平台发布,也积累了大量高质量的数据3.谈路线:基于T5架构完全自研甲子光年:从技术路线上来说,ChatYuan与其他大模型有什么不同?张轩玮:NLP领域有三大预训练模型BERT、GPT与T5。

PromptCLUE是基于T5架构,在中文语料下进行无监督和有监督的中文多任务训练模型然后我们在PromptCLUE的基础上,利用大量多轮对话数据、结构微调、参数量升级,结合人类反馈和强化学习训练出大模型ChatYuan。

甲子光年:为什么ChatYuan选择T5架构而不是另外两个?张轩玮:其实我们内部也讨论过很多次现在ChatGPT火起来了,大家似乎觉得其背后的GPT架构会成为一个主流路线,但其实GPT、T5没有谁占绝对的主导。

BERT是Encoder(编码器)架构,擅长理解类任务;GPT是Decoder(解码器)架构,擅长生成类任务;T5是“Encoder-Decoder”架构,编码器用于理解、解码器用于生成,在理解和生成上都能提供不错的效果。

实际上,有很多的热门模型也是基于T5做的,比如Hugging Face推出的T0,谷歌推出的FLAN-T5等,长远来看我们认为多种架构都可以实现共同的目的徐亮:GPT是chatgpt提出的,BERT、T5是谷歌提出的,每个大厂都会主导自己的方向。

就像高手对决一样,你有刀、别人有盾,关键是把武器发挥到最大价值实际上我们也在T5上做了模型loss等学习方式的优化,并且结合了prompt learning(提示学习)甲子光年:基于T5架构,算是自研吗?。

徐亮:是完全自研的首先,BERT、GPT、T5都是基于Transformer只是在具体路线上,我们选择了Encoder-Decoder路线这里我们讲的T5只是一个架构,不是现成的模型我们按照T5的路线方法,从0到1完整地自研了一套模型。

甲子光年:ChatYuan是一个多任务训练模型,如何理解“单任务”与“多任务”?徐亮:BERT是一个单任务模型,能够通过模型微调的方式解决一个个具体的任务,但主要的困难和挑战在于,在实际业务中会有非常多的任务,每一个任务既要训练模型、又要标注、又要做算法功能调试,比较费时费力。

基于GPT、T5的模型能够实现一个模型支持所有的任务,模型架构更加通用、可扩展性,效率更高、成本更低这与现在的AGI的方向是非常吻合的甲子光年:ChatYuan的创新性体现在什么地方?张轩玮:Transformer是一个具有跨时代意义的架构,目前形成了大一统局面,这是大家的共识。

在此基础上,我们的原创性在于“Encoder-Decoder加上chatgpt、人类反馈强化学习等具体来说:1、基于“从零训练的全中文任务支持零样本学习模型PromptCLUE”进一步迭代获取;

2、在中文领域首创功能对话形式,支持全中文任务,支持自由输入;3、结合人类反馈强化学习,对齐人类意图甲子光年:ChatYuan引入的人类反馈强化学习机制,效果怎么样?徐亮:AI研究很多年前就引入了,但过去在NLP领域的尝试都失败了,现在国内都在尝试引入这种方法。

我们也在迭代的过程中,目前已经初步结合强化学习,效果有不错的提升,预计很快就会有一些更大的突破,目前还在调优当中甲子光年:在关于ChatYuan的描述中,去掉了文本理解和信息抽取类的任务,加强了生成式的任务。

既然选择了Encoder-Decoder架构路线,为什么又要做功能上的取舍?徐亮:我们当时参考了chatgpt的任务分布情况统计,大概有40%的生成类任务,10%的问答类任务,但抽取类、理解类任务占比相对较小。

我们认为在人机交互的场景,抽取类、理解类任务的占有率会小于5%,也就是用户不太多,所以我们暂时把它去掉了当然从原理上来说,大模型的能力很强,后面我们也会计划加上抽取、理解类等任务4.谈差距:不是做中国版chatgpt,而是做中国版ChatGPT。

甲子光年:有用户试用ChatYuan之后,说大概只有GPT-2的水平你们觉得与ChatGPT差距有多大?张轩玮:用户体验过我们初代产品后,觉得整体效果不如ChatGPT,可能就直接认为我们是GPT-2的水平。

其实GPT-2是基本没有多任务交互能力的而且我们在中文语料上更有优势在很多任务维度上我们与ChatGPT不相上下,但在一些复杂任务、非常情况化的模拟以及复杂推理、数学计算等方面还是有差距这也是后续重点优化方向。

徐亮:实际上经过一段时间的迭代,效果又有了大幅的提升比如,我们之前代码生成效果比较弱,但新版本小程序上线之后也初步支持代码生成,格式非常标准,带有中文注释;也具有内容二次编辑、场景模拟等多方面内容实际上我们与ChatGPT的前一代版本(Dachatgpt和InstructGPT)的效果类似。

甲子光年:国内大厂也推出过大模型,但为什么没有推出ChatGPT?徐亮:chatgpt在一个技术方向上持续迭代,起步的时候就受到了长期的资金支持,而国内在基础研究方面投入的资源是比较有限的即使是大厂的一些机构,资源相对充分,但很多部门有各种现实的考核,需要产生更多与业务相关的价值,是为企业的商业诉求服务的,这也导致真正想做基础研究的人没法长时间待下去。

而基础性研究的工作,里面会包含大量的试错长期主义氛围还是有待近一步提升,因此原创性的进展还是比较弱的朱雷:国内的大部分公司其实更擅长做应用和商业模式,从这个维度上说,我们比国外还要优秀应用层的用户体验、用户增长、商业模式,这是国内公司擅长的。

未来要想跟国外缩小差距,一开始的视角就是要先做自己擅长的事情,然后慢慢补足基础研究,我觉得这也是合理的从长期来看,未来国内能不能做出类似于Transformer的原创性基础架构方案?我认为非常有机会甲子光年:现在还有必要从0到1做一个类似Transformer的架构吗?

张轩玮:当公司达到一定量级的时候,比如有足够多的资金、有足够多的人才积累,我们也有这个责任去做但现在谈这个还太遥远甲子光年:Transformer是一个开放架构,也存在卡脖子的问题吗?徐亮:真正核心的地方在于,你不知道有没有卡脖子。

本文地址: https://www.528683.com//show-413345.html
版权声明:除非特别标注原创,其它均来自互联网,转载时请以链接形式注明文章出处。

上一篇开源chatgpt工具 ChatGPT 代码重构

下一篇如何在python上使用chatgpt python做一个简单的聊天机器人