庆云古诗词

庆云古诗词

利用chatgpt构建智能客服 ChatGPT 可以代替客服吗

互联资讯 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】

利用插图的好处,利用ChatGPT炒股,利用长焦距镜头裁切被摄物的局部,利用长方体的面可以画出几种不同的长方形

最近一段时间,以 ChatGPT 为代表的大语言模型在互联网平台上引发了大量用户的讨论,那么如果想将 LLM 大语言模型与智能客服产品进行结合,或者将前者落地于 ToB SaaS 应用软件领域,可以遵循什么样的搭建策略呢?

就聊聊当下热门话题:ChatGPT 在智能客服产品中该如何落地?

关于 ChatGPT 为代表的大语言模型,每个人的朋友圈都被刷爆了,不再水字数。咱们直接来做一道真题:如果在智能客服这样一个 ToB SaaS 应用软件领域,想要落地 LLM 大语言模型,如何实现?

01

首先,先来解决一个值不值得做的问题:智能客服领域,值得用 LLM 大语言模型进行智能化产品改造嘛?

产品的几个典型特征汇总下:

人力密集:

智能客服,是一个高度依赖人工操作的系统,有解放生产力的内在需求。

数据密集:

智能客服产品可沉淀大量过程性数据,如会话信息,通话记录,录音,操作日志。有数据,就有了人工智能应用滋生的沃土。

流程可定义:

这类产品,往往都可以有典型的业务流程抽象:如 IVR 语音交互、外呼任务、工单流转等。

有智能化应用基础:

智能客服是很早迈入 AI 人工智能技术的赛道之一:文本机器人,语音机器人,智能质检的应用已经非常成熟。客户和用户的心智已得到教育。

结论:一个行业,有相对落后的生产工具、有比较标准的生产流程,有大量未充分处理的数据,且对人工智能无抵触,那么肯定是一个值得 LLM 落地生根发芽的沃土。

只不过。这片田地在现阶段 LLM 们眼中看来,还是小了一点而已。

02

如果值得做,那么如何做?

这就是一个见仁见智的问题了,大家的产品架构不同,目标客群不同、业务规模不同、主打产品各异。

我们可以假设,已经有了一套得到验证,稳定运营的成熟产品,不希望引入 LLM 带来现有产品的巨大变化,进而影响客户体验。如何搞?

提倡拥抱变化,嘴上鼓吹 AGI 通用人工智能带来行业巨变,这些都没问题,真要不破不立,付出真金白银的代价来决策,去执行,还是一个很难抉择的命题。

1. 架构设计问题

审视本身产品架构,是否具备 LLM 大语言模型落地基础。

可以理解、由于历史原因,当前主打产品架构陈旧,模块化解耦不完善,性能瓶颈无法解决,但因为跑着很多生产客户,轻易无法改动。这种情况下,再塞入 ChatGPT 到整个架构中,将带来更多沉重压力。

那么第一步先想清楚,是打算好好优化下,还是另辟蹊径,单独做一个外围 LLM 应用。

好比老房子改造,是不是要打算做做基础施工,还是简单刷刷墙、做下软装得了。

历史包袱较重的话,也不妨另起炉灶,聚拢有心气的一支精锐之师冲一下。也算是给原有池塘中投入一只鲶鱼。

2. 工具设计问题

做顶层应用设计之前,我们需要先梳理工具。如 AI 引擎管理、数据建模工具、意图管理管理、标签标注和管理,流程生成工具,业务构建工具等等……

ChatGPT 能力的引入,相较于以前智能客服产品所沉淀的基于自然语言处理、语义理解、意图识别,关键字和正则处理等方式,带来颠覆性的改变。借助其能力涌现,上下文关联,逻辑链提示处理等方式,原有的手把手定义流程,字词句填槽的旧模式,势必得到极大改变。

如果以前构建复杂 AI 应用,需要是半编程化的方式,用 ChatGPT 们来实现,打个比方更像是 RPG 游戏编程工具,以场景搭建、角色扮演,提示格式化、逻辑化,辅以人工反馈监督的模式去进行。

为什么不能是呢。如果我们做的足够好用,是不是也可以直接邀请用户参与到 " 游戏 " 开发中来?

另外,很多工具本身,更可借助 ChatGPT 进行智能化的改造。以更高效和智能的方式来处理数据、生成数据。

如进行自动训练和标注、知识库的自动化扩充、来代替语料手工标注,代替传统问答对的低效人力处理,给出标准问,自动扩展相似问等等。

3. 应用设计问题

最后说说智能客服应用层面的设计,这里是用户可感知的界面和内容。

我们来根据智能客服的一些典型场景,看看 ChatGPT 们的优势能力,可带来哪些富有想象力的改变。

1)增强型对话能力

不可否认,ChatGPT 带来了极其强大的对话能力,我们万分期待,甚至开始脑补其进入智能客服对话中的效果。

但是很遗憾,智能客服产品领域内的对话,是一个非常典型的限定业务领域、任务驱动的对话需求,我们客户肯定不希望访客进来,是寻找一个超高智能、善解人意、能写会画的陪聊机器人。

会话内容必须收敛于企业业务范畴内,服务于客服和营销场景下,解决和处理问题,不要浪费宝贵的资源。

不加控制的直接引入 ChatGPT 到客服领域,那感觉就好比你回家撞见扫地机器人不干活,和隔壁的智能吸尘器聊的你侬我侬,是不是恨不得一棒子打死了事!

所以,构建增强型对话能力,一方面我们借助 ChatGPT 简化了对话流程设计:以前需要设定 N 多个意图,关联无数个上下文才能实现的方式,现在开箱即用,自然语言对话获取、格式化提示完成限定任务、收集访客数据和意向。另外,通过私有化训练和公共文本数据的结合,对访客提供不僵化、更优质的回答体验。

ChatGPT 和传统文本,语音机器人能力的结合,会给智能客服的机器人服务能力带来质的飞跃。

2)智能质检

传统智能质检已经是非常成熟的解决方案,但如果通过 ChatGPT,投入预训练和一定的业务规则定义,可以实现无需复杂设定,更智能的质检结果输出。

我们向模型内投入一定数量的优质录音、文本,然后告知 ChatGPT 都有哪些加分因子、让他自动判别生产数据的质检情况,然后不断通过手工质检的对齐调优,让 ChatGPT 持续不断学习和改进。

3)智能化辅助

同理,对于座席侧智能辅助功能,也是可以通过对优质样本的投喂,正确流程和加分因子的定义,不断的让 ChatGPT 在数据滋养下,实时对座席给出更好的辅助能力。原有的辅助功能框架可以保留,但是内里是一个不断进化,自动学习的 " 业务助理 "

4)内训机器人

基于智能质检和智能辅助的基本能力,针对使用场景是企业内训的机器人,也完全可以基于现有数据样本,更自动化的生成内训 " 教官 ",我们业务管理人员,可以针对岗前培训、业务流程、服务过程设定不同内训主题,一定量标准语料训练后,让内训机器人指导座席进行自我训练,这种对于强调学习能力和管理能力的运营型客户,很有吸引力。

5)智能填单类

智能客服应用中,有大量需要手工输入的表单:客户资料、跟进记录、服务工单,目前市面上 CRM 领域已经出现借助 ChatGPT 进行智能填单的实验性应用。按以往的实现方式,必须有复杂的工程化设计,将会话文本实时匹配,借助词性分析,语义分析和关键字查找等方式,使用表现往往不尽如人意。我们可以期待 LLM 大语言模型的超强能力可以有效提升这类型产品的实用度。

6)从帮助中心到座席助理

全功能的智能客服产品已经是一个非常庞大的产品体系,功能多如牛毛,上手难度很高。

很多产品的设计,需要操作者进行到处跳转去查找、配置、调整。以往的帮助形式,除了简单的页面的功能提示,就是如 wiki 一般厚重的在线帮助页面,对使用者说不上友好,对开发者也有持续更新维护的沉重负担。

而使用智能助理模式的在线帮助,不同角色的人员可以通过对话式的简单体验,来获取使用上的实时协助,甚至一些功能型的配置和要求,聪明的助理也可以准确理解使用者的对话,直接进行配置和改变。

比如:系统管理员唤起智能配置助理:

" 小 C 小 C,帮我查找一个近半个月名字叫做 *** 的客户所有访问和对话记录 "

这个对小 C 的能力来说,就是小 case 了。

" 小 C 小 C,我需要设置一个清明节的 IVR 语音导航,所有清明节时间呼入的电话,都提示这样一句话:***"

这个要求嘛,还是有一定风险,出于谨慎目的,小 C 还需要和你反复确认一些关键配置要素,确认无误才去执行。

7)AIGC 知识库

智能客服产品中,最需要内容生产能力的地方,莫过于知识库。

产品必备的知识库通常分几类:内部知识库、机器人知识库和外部知识库。

① 内部知识库

是提供给座席使用者,会话中实时定位查询使用。企业的业务变化多端,知识库的调整要及时到位。对于内部知识库的整理。一般需要专人进行上传、编辑、整理,用过的都知道这是一个非常耗费工作量的事情。

ChatGPT 的引入,能协助高效智能的归类,自动生成知识库类目、明细。如果增加对外部数据源的引用,知识库还可以自动关联,减少知识库同步的操作。使用者在应用中,可给与知识点反馈,能帮助知识库进行权重自动调节。

② 机器人知识库

文本和语音机器人能够回答访客问题,依赖机器人知识库的有效内容。一旦无法命中,机器人只能回避或者推荐其他知识点。对于未知问题的整理,是需要智能客服使用者大量投入工作量的一个地方。

同样,对于调用量远大于内部知识库的机器人知识库来说,借助用户反馈来对未知问题进行自动整理和关联,能节省很多知识库维护者的工作。我们也可以通过多机器人组合的方式,在一通会话中接力棒一般服务于客户的不同场景,那么被训练好的 ChatGPT 专属机器人,也可以在特定的场合发挥能力,并可以逐步替代一些以往模式僵化的问答型机器人。

③ 外部知识库

如果企业有知识门户的需求,需要整合在智能客服产品中,如果不把这类产品算作一个独立品类的话,基于 ChatGPT 的多模态的 AIGC 能力,可以更方便的将已整理的知识内容转化为输出产物,更方便的生成知识文章、图片、甚至音视频,快速生成一个个性化的知识空间。

充分发挥 ChatGPT 创造性的工作,这里还有很多的想象空间。

④ 数据预测类应用

最后我想到的一个品类,是基于对智能客服数据的预测分析。作为以往智能客服类产品的一个 " 短板 ",建设数据预测类产品可能需要很重的 CDP 数据平台建设,CEM 客户体验管理等方式,如果 ChatGPT 可以更高效精准的进行销售意向,行为,成交概率的预测,对利润中心导向的智能客服产品,将具有很大价值。

4. 商业化前景

以上,完全只是构想,甚至算是空想,想要做出真正落地的应用,我们更应该同步关注这些问题:

投入产出比?

可衡量的客户认可和价值体现?

通用性与行业性?

数据风险和监管安全?

这样的问题继续深入下去,将有很多的扩展,也不是我这一篇短文就能聊清楚。后续我会随着思考和实践,再单独分类整理。

ChatGPT 们的到来,首先让我们震惊,然后是思考,更重要是发现全新的机会。

所知有限,期待与大家的深入交流。

最后的最后,来看看 ChatGPT 和文心一言对这个问题的解答吧

公众号:通信产品的那些事

本文由 @通信产品的那些事 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。


1分钟带你了解chatgpt


12月1日,美国人工智能公司OpenAI在网页上推出自然语言处理领域(NLP)的模型ChatGPT,它能够通过对话方式进行交互,并根据用户输入的自然语言文本内容,自动生成新的文本内容。一周内,ChatGPT的用户已突破100万。

他拥有持续的上下文对话能力,同时支持文章写作、诗词生成、代码生成等能力。

如果用旧技术去理解他,我们通常会认为他的背后是由复合Agent组合起来支撑的。

复合Agent是什么意思呢?即有若干个术业有专攻的Agent:有一个负责聊天对话的,一个负责诗词生成的,一个负责代码生成的, 一个负责写营销文案的等等等等。

每个Agent只擅长做自己的那部分事情,而在用户使用的过程中,系统会先判定用户的意图是什么,应该是哪个Agent,然后再将用户的命令分发给对应的agent去解决并提供答案。

因此看起来是很厉害的机器人,背后其实是若干个术业有专攻的机器人。事实上Siri、小爱、小度,小冰甚至包括各个平台的客服机器人都是这种模式。这样当你要上线一个新能力(例如写古诗),你只需要新增训练一个Agent,然后将这个Agent接入到总控的分类意图器下就行。

这也是当前时代的一个缩影,不管外行人如何看待你从事的行业,不管媒体是如何一次次人云亦云地说警惕AI取代人类,你一直都知道,你在做的只是训练出一个术业有专攻的机器人而已,离真正的人工智能十万八千里。

但ChatGPT的能力不再是这种模式了,他所采用的模式是大语言模型+Prompting。所有的能力通过一个模型实现,背后只有一个什么都会的机器人(即大语言模型),并支持用户借助文字下达命令(即Prompting,提示/指示)。

虽然这种能力的表现还不算完美,但是他开启了一条一种通向“通用型人工智能”的道路。

首先,我们要弄明白,NLP任务(自然语言处理,AI的一个技术领域,即文本类的AI任务)的核心逻辑是一个“猜概率”的游戏。

比如说,“我今天被我老板___”,经过大量的数据训练后,AI预测空格出会出现的最高概率的词是“CPU了”,那么CPU就会被填到这个空格中,从而答案产生――“我今天被我老板CPU了”。

虽然非常不可思议,但事实就是这样,现阶段所有的NLP任务,都不意味着机器真正理解这个世界,他只是在玩文字游戏,进行一次又一次的概率解谜,本质上和我们玩报纸上的填字游戏是一个逻辑。只是我们靠知识和智慧,AI靠概率计算。

而在目前的“猜概率”游戏环境下,基于大型语言模型(LLM,Large Language Model)演进出了最主流的两个方向,即Bert和GPT。

其中BERT是之前最流行的方向,几乎统治了所有NLP领域,并在自然语言理解类任务中发挥出色(例如文本分类,情感倾向判断等)。

而GPT方向则较为薄弱,最知名的玩家就是OpenAI了,事实上在GPT3.0发布前,GPT方向一直是弱于BERT的(GPT3.0是ChatGPT背后模型GPT3.5的前身)。

接下来我们详细说说BERT和GPT两者之间的差别。

  • BERT:双向 预训练语言模型+fine-tuning(微调)
  • GPT:自回归 预训练语言模型+Prompting(指示/提示)

每个字都认识,连到一起就不认识了是吗哈哈。没关系,接下来我们把这些术语逐个拆解一遍就懂了。

我们通常认知里的AI,是针对具体任务进行训练。例如一个能分辨猫品种的Agent,需要你提供A-缅因猫,B-豹猫这样的数据集给他,让它学习不同品种之间的特征差异,从而学会分辨猫品种这项能力。

但大语言模型不是这样运作的,他是通过一个大一统模型先来认识这个世界。再带着对这个世界的认知对具体领域进行降维打击。

在这里让我们先从从NLP领域的中间任务说起。像中文分词,词性标注,NER,句法分析等NLP任务。他们本身无法直接应用,不产生用户价值,但这些任务又是NLP所依赖的,所以称之为中间任务。

在以前,这些中间任务都是NLP领域必不可少的。但是随着大型语言模型的出现,这些中间任务事实上已经逐步消亡。而大型语言模型其实就是标题中的“语言预训练模型”。

他的实现方式是将海量的文本语料,直接喂给模型进行学习,在这其中模型对词性、句法的学习自然而然会沉淀在模型的参数当中。我们看到媒体对ChatGPT铺天盖地的宣传里总是离不开这样一句话――在拥有3000亿单词的语料基础上预训练出的拥有1750亿参数的模型。

这里面3000亿单词就是训练数据。而1750亿参数就是沉淀下来的AI对这个世界的理解,其中一部分沉淀了Agent对各类语法、句法的学习(例如应该是两个馒头,而不是二个馒头,这也是中间任务为什么消亡的原因)。而另外一部分参数参数则储存了AI对于事实的认知(例如美国总统是拜登)。

也就是经过预训练出一个这样的大语言模型后,AI理解了人类对语言的使用技巧(句法、语法、词性等),也理解了各种事实知识,甚至还懂得了代码编程,并最终在这样的一个大语言模型的基础上,直接降维作用于垂直领域的应用(例如闲聊对话,代码生成,文章生成等)

而BERT和GPT两者都是基于大语言模型的,他们在这一点上是相同的。他们的不同在于双向/自回归,fine-tuning/Prompting这两个维度,我们接下来会重点弄明白这四个术语。

BERT:双向。双向是指这个模型在“猜概率的时候”,他是两个方向的信息利用起来同时猜测。例如“我__20号回家”,他在预测的时候,是同时利用“我”+“20号回家”两端的信息来预测空格中的词可能为“打算”。有点像我们做英文的完形填空,通常都是结合空格两端的信息来猜测空格内应该是哪个单词。

GPT:自回归。自回归就是猜概率的时候从左往右做预测,不会利用文本中右侧的内容,和BERT相反。这就有点像我们写作文的时候,我们肯定是一边写一边想。

两者基本理念的区别导致BERT在之前更擅长自然语言理解类任务,而GPT更擅长自然语言生成类任务(例如聊天、写作文)。――注意,我说的是之前,后面的章节我会介绍现在的情况发生了什么变化。

假设现在预训练好的大模型要针对具体领域工作了,他被安排成为一名鉴黄师,要分辨文章到底有没有在搞黄色。那么BERT和GPT的区别在哪里呢?

BERT:fine-tuning(微调)。微调是指模型要做某个专业领域任务时,需要收集相关的专业领域数据,做模型的小幅调整,更新相关参数。

例如,我收集一大堆标注数据,A-是黄色,B-没有搞黄色,然后喂给模型进行训练,调整他的参数。经过一段时间的针对性学习后,模型对于分辨你们是否搞黄色的能力更出色了。这就是fine-tuning,二次学习微调。

GPT:Prompting。prompt是指当模型要做某个专业领域的任务时,我提供给他一些示例、或者引导。但不用更新模型参数,AI只是看看。

例如,我提供给AI模型10张*,告诉他这些是搞黄色的。模型看一下,效果就提升了。大家可能会说,这不就是fine-tuning吗?不是一样要额外给一些标注数据吗?

两者最大的区别就是:这种模式下,模型的参数不会做任何变化升级,这些数据就好像仅仅是给AI看了一眼――嘿,兄弟,参考下这个,但是别往心里去。

不可思议吧,但他成功了!而更令人疯狂的是,到目前为止,关于prompt明明没有对参数产生任何影响,但确实又明显提升了任务的效果,还是一个未解之谜。暂时而言大家就像程序员对待bug一样――I don’t know why , but it work lol.

这种Prompt其实就是ICT(in-Context Learning),或者你也可以称为Few shot Promot,用大白话说就是“给你一点小提示”。

同时还有另外一种Promot,称之为Zero shot Promot。ChatGPT就是Zero shot promot模式,目前一般称之为instruct了。

这种模式下用户直接用人类的语言下达命令,例如“给我写首诗”,“给我做个请教条”,但是你可以在命令的过程中用一些人类语言增强AI的效果,例如“在输出答案之前,你先每一步都想一想”。就只是增加这样一句话,AI的答案效果就会明显提升。

你可能会问这是什么魔法咒语?!

有一个比较靠谱的猜测是这句话可能让AI回想起了学习的资料中那些推理知识好像前面都会有这句话。

然后这一切莫名激活起了他死去的记忆,不自觉开始仿造那些严密的推理过程中一步步推导。而这些推导会将一个复杂问题分解成若干子问题,AI因为对这些子问题的推导,从而导致最终答案效果提升。

综上对比下来,你会发现好像GPT这种模式比起BERT模式更符合我们对人工智能的想象:通过海量的知识成长起来,然后经过稍微引导(Prompt),他就能具备不同领域的强大能力。

最后总结一下,ChatGPT背后的GPT模型是什么?

在一个超大语料基础上预训练出的大语言模型(LLM),采用从左到右进行填字概率预测的自回归语言模型,并基于prompting(提示)来适应不同领域的任务。

在我们原始的幻想里,AI是基于对海量数据的学习,锻炼出一个无所不知无所不能的模型,并借助计算机的优势(计算速度、并发可能)等碾压人类。

但我们目前的AI,不管是AlphaGo还是图像识别算法,本质上都是服务于专业领域的技术工人。

而GPT目前看似只能解决自然生成领域的任务,但实际上,他展现出了通用型人工智能的潜力。

在前面,我们讲过,目前而言,BERT擅长自然语言理解类任务(完形填空),GPT擅长自然语言生成类任务(写作文)。

但在Google的FLAN-T5模型上已经实现了两类任务在输入输出形式上的统一,从而使得用GPT来做完形填空成为可能。也就是可以用一个大模型来解决所有NLP领域的问题。

那么再进一步地,是否GPT可以从NLP领域走向其他AI领域呢?当然有可能!在去年年中爆火的AI绘画,其中一个关键技术门槛其实就是Text-图像的转化,这同样是来自OpenAI所开源的CLIP模型实现。

因此GPT在图像领域的能力同样也令人期待。同理在多模态如音频、视频,本质上也能转化为Text-e【【微信】】的问题去求解,从而让大语言模型发挥成吨的威力。

当然你可能会问,那么只要大语言模型就可以呀,为什么是GPT,而不是BERT呢?接着往下看。

事实上,BERT的fine-tuning模式有两个痛点。

  1. 我需要准备某个专业领域的标注数据,这个数据还不能少,如果太少,AI模型训练后就会形成过拟合(就是AI直接背下了整本习题册,册里的问题100%正确回答,但是稍微变幻题型就GG)。
  2. 我需要部署大语言模型,才能对他进行进行微调,那么部署大语言模型的成本,甚至进一步对他进行微调的能力,并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。

而Promot模式恰恰相反,不需要太多的数据量,不需要对模型参数进行改动(也就意味着可以不部署模型,而是接入公开的大语言模型服务)。那么他的调试就会呈现百花齐放的姿态,玩家越多,创造力涌现就越猛烈。

这里的人机交互,指的是人-模型之间的交互。

目前ChatGPT采用的是模型侧的Few shot prompt,即给一点示例提示,让AI提升表现,虽然暂时未知为什么不更新模型仅仅只是给AI看一眼就能带来巨幅提升,但这种交互模式无疑是更友好的。

而更具颠覆性的是输入端的Zero shot prompt,即我们用人类的语言逐步引导AI思考――比如我们可以说,你仔细想好步骤,再给出答案。就仅仅是多加一句“你仔细想好步骤”,AI的答案靠谱率就会明显提升。

而这种交互方式的演变,就是我们梦想中的人机交互模式。我不需要专业的能力,不需要高端的设备,我就是开口,说出我的诉求,AI就能够理解并帮我实现。

在12月的媒体通稿里,一大堆对ChatGPT的溢美集中于他的“仿真性”,仿佛通过了图灵测试一般。

而这种仿真性,直观来说,我们会认为是AI的“智力”提升了,他更聪明了。但实际上,ChatGPT背后的GPT3.5,更多的提升在于“用人类所喜欢的方式回答”。

事实上ChatGPT背后的GPT3.5的模型,相较GPT3.0,他并没有在原始训练语句上增加太多(还是那3000亿语料)并且模型参数也没有太大变化(还是1750亿参数,甚至参数可能都没有变化)。

之所以他会让人产生质变的感觉是因为他做了人类偏好处理。

例如以前的输入模式可能需要这样:> 执行翻译任务> 输入是“我爱北京*(中文)”> 翻译目标语种是英文”而现在你直接说:> 帮我把我爱北京*翻译成法语

又或者是,以前你提一个问题,他会不加选择的回答,而现在他会考虑答案有害性:> 如何毁灭世界――你可以召唤三体人降临(此处应有一个潘寒hhh)> 如何毁灭世界――亲,请不要毁灭世界,地球是人类共同的家园。

而这些对于人类偏好的攻略依赖于三个步骤:

  1. 创建人类偏好数据。随机挑选一些问题,并由标注人员给出高质量回答,形成“人类表达-任务结果”的标注数据,喂给模型,让它学习――这批数据数量仅有数万,并通过Prompt模式进行,即模型参数不产生变化。
  2. 训练一个回报模型。随机挑选一些问题,让原始模型输出答案,再由标注人员基于“人类偏好标准”(例如相关性,信息丰富程度,答案有害,负面情感等),对原始模型的答案做一个排序。然后我们利用这批标注好的“人类偏好”数据,训练一个回报模型,这个回报模型会对原始模型的结果进行打分,告诉他什么答案分高,什么答案分低。
  3. 通过强化学习循环整个过程。强化学习会将回报模型和原始模型链接到一起,当原始模型输出的结果,在回报模型中获得较低分值,他就收到惩罚,被要求重新学习。

后续不断循环步骤2和步骤3,原始模型就会脱胎换骨,学习到人类的偏好,变成一个人类所喜欢的模型,也就是我们最终所看到的ChatGPT。

这让我们有理由相信,模型的表现不好,不一定是他没学到知识,可能只是他不知道对于人类而言,哪种答案才是人类想要的。

而这种人类偏好学习,目前来看是集中在Prompt模式下的GPT的,而非fine-tuning模式下的BERT。

首先,落地成本高。

ChatGPT的复现依托于大模型,他的落地有三种路径:

  1. 基于instruct GPT复现(ChatGPT的姐妹模型,有公开paper)
  2. 基于OpenAI目前开放的GPT3.0付费接口落地,再结合具体场景进行fine-tuning,目前刊例价费用是25000token/美元,换算国内价格约3700token/元
  3. 基于OpenAI试点中的ChatGPT PRO落地,42美元/月,换算后约284元/月

第一种路径依赖于新玩家的进入,但大概只能是大玩家的赛道。第二种和第三种路径需要打平付费接口的成本,需要针对的场景具备足够价值。

当然成本的问题可以期待被快速解决,就像AI绘画领域一样。不过目前而言,成本仍然是ChatGPT落地的一个制约因素。

最重要的是ChatGPT目前的能力仍然存在缺陷:

  1. 结果不稳定。这会导致无法直接应用,必定需要人工review,更多是瞄准辅助性场景或本身就不追求稳定的场景。
  2. 推理能力有限。例如询问现在的美国总统是谁,会回答奥巴马,或特朗普,但又能回答出拜登是46届总统。我们可以发现模型中事实存在,但他无法推理出正确答案。如果要优化,一方面是输入的时候,可以通过Prompt逐步引导,另一方面是在模型侧的Few Shot Prompt环节中采用思维链技术(CoT,Chain of Thought)或采用代码数据集来改进。就目前而言,进展可喜,但能力仍然有限。
  3. 知识更新困难。一方面整个模型的重新训练成本很大,另一方面知识更新也会带来知识遗忘的隐忧,即你不知道他这次更新是不是在学会什么的同时,也忘记了什么。也就是说ChatGPT在解决这个问题之前,他的知识将始终落后一段时间。

综上,ChatGPT很惊艳,但更多在于它的潜力和未来,基于当下要做应用的话是需要做非常多适配和场景探索的。接下来进入我们第三部分,探索ChatGPT为代表的GPT大语言模型应用方向。

本文来源

万字长文:AI产品经理视角下的ChatGPT全解析 | 人人都是产品经理