庆云古诗词

庆云古诗词

谈谈ChatGPT未来发展思路

互联资讯 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


感谢大佬们以前的写的文章给我提供了素材和思路,欢迎大家转发交流,您的点赞关注收藏是对我最大的鼓励噢,本文为博主原创文章,转载请附上原文出处链接和声明。

  • 前言
  • 发展历程
    • 行业概况
    • 研究现状
  • 技术路径
    • 初学者必读10篇论文
    • 技术架构详解
    • ChatGPT的训练
  • 行业未来和投资机会
    • ChatGPT的产业未来
    • AIGC商业方向
    • 常见问题解答
  • 个人总结
  • 参考资料

随着计算机技术的飞速发展,人工智能已经成为当前最热门的研究领域之一。在人工智能领域中,自然语言处理是一个重要的分支。它研究如何使计算机和人类能够以自然语言的方式进行交流。 新年伊始,你可能会想,人工智能领域最热门的技术是什么?那应该是 ChatGPT。它就像一个六角战士,可以聊天、编写代码、修复错误、创建表单、发表论文、做作业、翻译,甚至是谷歌搜索引擎的有力竞争者。 2022年12月1日,OpenAI推出人工智能聊天原型ChatGPT,ChatGPT是一种由OpenAI开发的预训练语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中GPT是Generati【【微信】】rmer(生成型预训练变换模型)的缩写。它是基于Transformer架构,并使用了大量的文本数据进行训练,以实现对自然语言的理解和生成。ChatGPT具有出色的语法理解能力和语义理解能力,并且能够生成高质量的文本。因此,它被广泛应用于聊天机器人、问答系统、机器翻译等多领域。 近期ChatGPT突然爆火,在2个月内达到1亿活跃用户 ,是历史上增长最快的消费者应用程序。甚至有懂技术和懂赚钱的商业鬼才利用ChatGPT国内注册和使用的壁垒来赚钱,几天怒赚几百W(慕!),可见ChatGPT对当今风靡的程度。 接下来让我们揭开ChatGPT神秘的面纱吧!

ChatGPT是由OpenAI团队研发创造,OpenAI是由创业家埃隆・马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得・蒂尔等人于2015年在旧金山创立的一家非盈利的AI研究公司,其总部位于美国加利福尼亚州,并拥有多位硅谷重量级人物的资金支持,启动资金高达10亿美金。OpenAI的使命是使人工智能技术对人类产生积极影响,并帮助人类应对其带来的挑战。 OpenAI的研究方向包括人工智能、机器学习、自然语言处理、强化学习等多领域。该机构拥有一支顶尖的研究团队,并与世界各地的研究机构和企业合作,以推动人工智能技术的发展。 OpenAI 的ChatGPT是生成式人工智能技术(AIGC)。 AI模型可大致分为决策式/分析式AI(Discriminant/Analytical AI)和生成式AI (Generative AI)两类。决策式AI:学习数据中的条件概率分布,根据已有数据进行分析、判断、预测,主要应用模型有用于推荐系 统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体。生成式AI:学习数据中的联合概率分布,并非简单分析已有数据而是学习归纳已有数据后进行演技创造,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。

ChatGPT爆火的背后是人工智能算法的迭代升级。神经网络的爆发使人工智能广泛应用:2015年左右开始繁荣爆发,神经网络是实现AI深度学习的一种重要算法,是通过对人脑的基本单元神经元的建模和链接,探索模拟人脑系统功能的模型,并研发出的一种具有学习、联想、记忆和模式识别等具有智慧信息处理功能的人工系统。典型的应用场景为自然语言处理(NLP)和机器视觉(CV),其中具有代表的两个模型分别是循环神经网络(RNN)和卷积神经网络(CNN)。 国内外科技巨头都非常重视ChatGPT引发的科技浪潮,积极布局生成式AI,部分公司已有成型产品。

  • 谷歌:面对ChatGPT构成的威胁,谷歌的CEO在公司内部发布“红色警报”。注资3亿美元投资竞品Anthropic公司,同时批准谷歌搜索引擎中加入AI聊天机器人。
  • 微软: OpenAl的最大投资方,开始利用ChatGPT提高产品竞争力,将ChatGPT整合进Bing搜索引擎、Office全家桶、Azure云服务等产品中。
  • 亚马逊:ChatGPT受到重点关注,已广泛运用在各种工作职能中,包括回答面试问题、编写软件代码和创建培训文档。
  • 美国新媒体巨头Buzzfeed宣布计划采用ChatGPT协助内容创作,股价一夜暴涨近120%,两天时间市值飙升3倍。
  • 百度:1月10日,百度宣布将升级百度搜索的“生成式搜索”能力,智能解答用户的搜索提问;2月7日,百度宣布将在3月份完成其ChatGPT产品的内测,面向公众开放,该项目名字为文心一言(ERNIEBot)。
  • 腾讯:2月3日,腾讯公布一项人机对话专利,能够实现机器与用户之间自然且顺畅的沟通。该项专利与这段时间爆火的人工智能聊天机器人 ChatGPT 的原理十分相似。
  • 科大讯飞:科大讯飞在回答投资者提问时表示,科大讯飞有坚实的相关技术积累,多年来始终保持关键核心技术处于世界前沿水平(如科大讯飞于 2022 年获得 CommonsenseQA 2.0、【【微信】】 等多个认知智能领域权威评测的第一)。且在认知智能领域重点技术和以教育、医疗为代表的专业领域,应用落地效果整体处于业界领先水平。

最近大火的ChatGPT的计算逻辑来自于一个算法名字叫Transformer。它来源于2017年的一篇科研论文《Attention is all your need》。Transformer算法在神经网络中具备跨时代的意义。Transformer具备跨时代的意义的原因是算法上添加了注意力机制,这种机制具备突破性的原因在于 1、突破了RNN 模型不能并行计算的限制; 2、相比CNN模型,关联所需的操作次数不随距离增长; 3、模型解释力度明显加强。从结果上看, 根据CDSN数据,Transformer的综合特征提取能力、远距离特征捕获能力、语义特征提取能力,全部明显增强,因此此算法正逐步取代RNN算法,也是ChatGPT算法的底座。

从Transformer提出到GPT的诞生,再到GPT2的迭代标志Open AI成为营利性公司,以及GPT3和ChatGPT的“出圈”;再看产业界,第四范式涉及到多个重要领域比如生物医疗,智能制造纷纷有以Transformer落地的技术产生。

ChatGPT 是基于GPT-3.5(Generati【【微信】】rmer 3.5)架构开发的对话AI模型,是InstructGPT 的兄弟模型。ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演练,或用于收集大量对话数据。 GPT是OpenAI开发的一种预训练语言模型。它采用了Transformer网络结构,并在语言任务领域中具有很高的表现。GPT的主要优势在于它可以通过预训练大量语料数据来获得对语言任务的预测能力,而不需要大量的人工标注数据。它具有良好的语言生成能力,可以生成文本、回答问题、进行对话等多项语言任务。

  • 第一代:从有监督到无监督GPT-1。2018年,OpenAI推出了第一代生成式预训练模型GPT-1,此前,NLP任务需要通过大规模数据集来进行有监督的学习,需要成本高昂的数据标注工作,GPT-1的关键特征是:半监督学习。先用无监督学习的预训练,在8个GPU上花费了1 个月的时间,从大量未标注数据中增强AI系统的语言能力,获得大量知识,然后进行有监督的微调,与大型数据集集成来提高系统在NLP任务中的性能。只需要极少的微调,就可以增强NLP模型的能力,减少对资源和数据的需求。同时,GPT-1也存在明显的问题,一是数据局限性,GPT-1是在互联网上的书籍和文本上训练的,对世界的认识不够完整和准确;二是泛化性依然不足,在一些任务上性能表现就会下降。
  • 第二代:更大更高更强的GPT-2。2019年推出的GPT-2,与GPT-1并没有本质上的不同(注意这一点),架构相同,使用了更大的数据集WebText,大约有40 GB的文本数据、800万个文档,并为模型添加了更多参数(达到惊人的 15 亿个参数),来提高模型的准确性,可以说是加强版或臃肿版的GPT-1。进一步证明了无监督学习的价值,以及预训练模型在下游NLP任务中的广泛成功,已经开始达到图灵测试的要求。
  • 第三代:跨越式进步的GPT-3。2020年,GPT-3的这次迭代,出现了重大的飞跃,成为与GPT-2迥然不同的物种。首先,GPT-3的体量空前庞大,拥有超过 1750 亿个参数,是GPT-2的 117 倍;其次,GPT-3不需要微调,它可以识别到数据中隐藏的含义,并运用此前训练获得的知识,来执行下游任务。这意味着,哪怕从来没有接触过的示例,GPT-3就能理解并提供不错的表现。因此,GPT-3也在商业应用上表现出了极高的稳定性和实用性,通过云上的 API访问来实现商业化。这种入得了实验室、下得了车间的能力,使得GPT-3成为2020年AI领域最惊艳的模型之一。
  • 第四代:基于理解而生成的GPT-3.5 (InstructGPT)。出现了颠覆式的迭代,产生了技术路线上的又一次方向性变化:基于人工标注数据+强化学习的推理和生成。GPT-3虽然很强,但无法理解人类指令的含义(比如写一段博文、改一段代码),无法判断输入,自然也就很难给出高质量的输出答案。所以OpenAI通过专业的标注人员(听说40个博士标注人员)标注了12.7K的样本,给出相应指令/问题的高质量答案,在基于这些数据来调整GPT-3.5的参数,从而让GPT -3.5具备了理解人类指令的能力。在人工标注训练数据的基础上,再使用强化学习来增强预训练模型的能力。强化学习,简单理解就是做对了奖励、做错了惩罚,不断根据系统的打分来更新参数,从而产生越来越高质量的回答,使得模型具备从人类的反馈中强化学习并重新思考的能力,这是一条通向通用人工智能AGI的路径。

学习资料: ChatGPT怎么变得这么强?华人博士万字长文拆解GPT-3.5 ChatGPT背后的超神模型:GPT-1到GPT-3.5是如何演化的? 一文讲清chatGPT的发展历程、能力来源和复现它的关键之处

作为一个大型语言模型,ChatGPT是通过大量的数据和算法训练得到的。下面是大致的技术路径:

  • 数据收集:OpenAI使用大量的网络文章和书籍等数据作为ChatGPT的训练数据,这些数据经过精心筛选和清洗,以确保其质量和可靠性。
  • 自然语言处理技术:对原始数据进行预处理和标记化,使用技术如分词、词性标注、句法分析、实体识别等技术。
  • 机器学习技术:OpenAI使用大量的机器学习算法对数据进行训练,包括深度学习技术如神经网络,递归神经网络等,还包括传统的机器学习算法如支持向量机、决策树等。
  • 算法优化:通过对算法进行改进和优化,以提高模型的性能和准确性。例如,使用更复杂的模型、改进梯度下降算法等。
  • 模型评估:OpenAI使用大量的评估指标来评估我的性能和准确性,以确保ChatGPT可以为用户提供高质量的服务。
  • 持续更新:ChatGPT会不断地进行更新和优化,以提高准确性和性能,同时也会随着时间推移而适应新的数据和技术趋势。

我让ChatGPT帮我推荐论文,竟然没有InstructGPT,感觉不是很满意结果,之后我又运用多种方式来提问他,最后选出我认为入门必读的10篇论文。

  1. Transformer

ChatGPT 使用的预训练模型 GPT,而Transformer是GPT的核心组成部分。

  • Title:Attention Is All You Need
  • 英文摘要

The dominant se【【微信】】dels are based on complex recurrent or con【【微信】】orks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and con【【微信】】. Experiments on two machine translation tasks show these models to be superior in 【【微信】】e parallelizable and requiring significantly less time to train. Our model achieves 28.4 【【微信】】ish-to-German translation task, impro【【微信】】est results, including ensembles by o【【微信】】. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.

  • 简介

该文章是一篇由Google Brain的研究人员于2017年发表在NIPS会议上的论文。该论文介绍了一种新的神经机器翻译模型Transformer,并且该模型在机器翻译任务上表现出了非常好的性能。Transformer模型使用了self-attention机制来计算输入序列中各个位置之间的依赖关系,避免了传统的循环神经网络模型中需要进行逐步迭代的计算,大大加快了模型的训练速度。在传统的机器翻译模型中,通常使用编码器-解码器(Encoder-Decoder)结构来进行翻译。编码器将输入序列(例如英文句子)转换为一系列隐藏状态,然后解码器使用这些隐藏状态来生成输出序列。在这个过程中,编码器和解码器之间通常使用循环神经网络进行连接。但是,这种结构在长序列的情况下容易产生梯度消失和梯度爆炸等问题,导致模型性能下降。Transformer模型通过引入self-attention机制,避免了循环神经网络的限制。Self-attention机制可以将输入序列中各个位置之间的依赖关系进行并行计算,使得每个位置都可以直接参考输入序列中所有其他位置的信息。这样可以更好地捕捉序列中的长程依赖关系,从而提高模型的性能。 Transformer的主要优点在于它不依赖于传统的循环神经网络,因此具有更高的并行计算能力和更好的处理长序列数据的能力。回到ChatGPT,它是在Transformer架构的基础上进行改进和扩展,并在大量的文本数据上进行预训练,以提高对自然语言的理解能力。ChatGPT使用了两个模型组成:一个用于语言理解,一个用于文本生成。它可以通过输入文本来预测输出文本,并且能够生成高质量的文本。

Transfomer优秀学习资料: Transformer的细节到底是怎么样的? - 月来客栈 Transformer模型详解(图解最完整版)

  1. GPT 这是GPT的原始论文,介绍了使用无监督的方式进行预训练的思想,该思想在各种自然语言处理任务上都获得了很好的效果,为ChatGPT的开发提供了基础。 GPT-1的训练分为无监督的预训练和有监督的模型微调,下面进行详细介绍。
  • Title:Impro【【微信】】nding by Generative Pre-Training

  • 英文摘要 Natural language understanding comprises a wide range of di【【微信】】ual entailment, question answering, semantic similarity assessment, and document classi?cation. Although large unlabeled text corpora are abundant, labeled data for learning these speci?c tasks is scarce, making it challenging for discriminati【【微信】】erform adequately. We demonstrate that large gains on these tasks can be realized by generati【【微信】】guage model on a diverse corpus of unlabeled text, followed by discriminative ?【【微信】】?c task. In contrast to pre【【微信】】, we make use of task-aware input transformations during ?ne-tuning to achie【【微信】】hile requiring minimal changes to the model architecture. We demonstrate the effecti【【微信】】n a wide range of benchmarks for natural language understanding. Our general task-agnostic model outperforms discriminati【【微信】】t use architectures speci?cally crafted for each task, signi?cantly impro【【微信】】e art in 9 out of the 12 tasks studied. For instance, we achie【【微信】】ts of 8.9% on commonsense reasoning (Stories Cloze Test), 5.7% on question answering (RACE), and 1.5% on textual entailment (MultiNLI).

  • 简介 该论文提出了一种名为Generative Pre-Training的预训练方法,旨在提高自然语言处理任务中的语言理解能力。这种方法利用了大量的未标记数据来训练模型,这种训练方式被称为预训练。 具体来说,Generative Pre-Training的思路是,利用Transformer等深度神经网络模型,在大规模未标记语料上进行预训练。在预训练中,模型学习使用无监督任务来学习语言表示,例如利用掩码语言模型和下一句预测任务等。在这个过程中,模型可以学习语言中的各种语言知识和语言规则,包括语义、语法、词义等等。这些学习到的知识可以用于后续监督训练的微调,从而提高模型在这些任务上的性能。 Generative Pre-Training方法的优点是,它可以在大规模未标记语料上进行训练,从而可以提高模型的泛化能力。此外,通过预训练,模型可以学习到更为通用的语言表示,可以用于多个自然语言处理任务。

  1. GPT-2 GPT-2的目标旨在训练一个泛化能力更强的词向量模型,它并没有对GPT-1的网络进行过多的结构的创新与设计,只是使用了更多的网络参数和更大的数据集。下面我们对GPT-2展开详细的介绍。
  • Title:Language Models are Unsuper【【微信】】rs

  • 英文摘要 Natural l


    chatgpt怎么发展起来的 chat gpt为什么如此吸引人

    chatgpt,chatgpt官网,chatgpt国内能用吗,chatgpt开源

    作者?|?上衫翔二?

    整理?|?NewBeeNLP

    大家好,这里是 NewBeeNLP。

    首页最近被chatGPT刷屏,但翔二博主左看右看发现很多想法似乎都是一脉相通的,于是连夜从存档中找了一些文章尝试理一理它的理论路线。

    • 具身智能综述和应用(Embodied AI)[1]

    • 多模态中的指令控制[2]

    同时想到今年在智源人工智能前沿报告(2021-2022年度)[3]中其实就有说道:

    “未来三年,基于虚拟世界、实时时空环境训练的具身模型会取得较大的发展,如自动驾驶、机器人、游戏中数字人等・・・・・・未来五到十年,超大规模预训练模型(信息模型)和具身模型将会结合,成为‘数字超人’,在知识能力以及跟环境的互动程度上,将比以往的人类都要强・・・・・・具身模型和机器人也将结合,在物理世界出现能力比人类还要强的无人系统,即‘具身超人’。乐观估计,在未来三十年,数字超人和具身超人可能会结合,最终诞生超级人工智能。”

    测了测chatGPT的性能后,好像这一切来的稍快了一点?

    博主个人理解,它以更为embodied AI形式的指令作为输入,以训练/微调大规模的信息模型,并基于强化学习与真实世界做持续交互,已经很接近此处所提到的“数字超人”了。

    关于chatGPT的基础介绍和使用本文不做过多介绍,可以参考各种报道文和知乎等等,此处推荐几份解读。

    • 视频讲解chatGPT[4]

    • 张俊林大佬的理解

    本篇博文先简要整理一下跟chatGPT相关Instruction Tuning的几篇论文。

    • paper:Finetuned Language Models Are Zero-Shot Learners

    • link:https://arxiv.org/pdf/2109.01652.pdf

    • code:https://github.com/google-research/flan

    首先是ICLR22的FLAN模型,这篇文章明确提出 Instruction Tuning(指令微调)的技术,它的本质目的是想将 NLP 任务转换为自然语言指令,再将其投入模型进行训练,通过给模型提供指令和选项的方式,使其能够提升Zero-Shot任务的性能表现。

    Motivation在于大规模的语言模型如GPT-3可以非常好地学习few-shot,但它在zero-shot上却不那么成功。

    例如, GPT-3在阅读理解、问题回答和自然语言推理等任务上的表现很一般,作者认为一个潜在的原因是,如果没有少量示例的zero-shot条件下,模型很难在与训练前数据格式(主要是prompts)维持一致。

    既然如此,那么为什么不直接用自然语言指令做输入呢?如下图所示,不管是commonsense reasoning任务还是machine translation任务,都可以变为instruct的形式,然后利用大模型进行学习。

    在这种方式下,而当一个unseen task进入时,通过理解其自然语言语义可以轻松实现zero-shot的扩展,如natural language inference任务。

    Instruction-tuning、Fine-tuning、Prompt-Tuning的区别在哪?

    • Fine-tuning:先在大规模语料上进行预训练,然后再在某个下游任务上进行微调,如BERT、T5;

    • Prompt-tuning:先选择某个通用的大规模预训练模型,然后为具体的任务生成一个prompt模板以适应大模型进行微调,如GPT-3;

    • Instruction-tuning:仍然在预训练语言模型的基础上,先在多个已知任务上进行微调(通过自然语言的形式),然后再推理某个新任务上进行zero-shot。

    具体来说,作者提出的Finetuned LAnguage Net(FLAN)模型将62个NLP task分为12 cluster,同一个cluster内是相同的任务类型,如下图所示。

    对于每个task,将为其手动构建10个独特template,作为以自然语言描述该任务的instructions。为了增加多样性,对于每个数据集,还包括最多三个“turned the task around”的模板(例如,对于情感分类,要求其生成电影评论的模板)。所有数据集的混合将用于后续预训练语言模型做instruction tuning,其中每个数据集的template都是随机选取的。

    如下图所示,Premise、Hypothesis、Options会被填充到不同的template中作为训练数据。

    然后基于LaMDA-PT模型进行微调。LaMDA-PT是一个包含137B参数的自回归语言模型,这个模型在web文档(包括代码)、对话数据和维基百科上进行了预训练,同时有大约10%的数据是非英语数据。然后FLAN混合了所有构造的数据集在128核的TPUv3上微调60个小时。

    • paper:Fine-Tuning Language Models from Human Preferences

    • link:https://arxiv.org/abs/1909.08593

    • code:https://github.com/openai/lm-human-preferences

    在介绍instructGPT和chatGPT前,还有两份比较重要的前置工作,即Reinforcement Learning from Human Feedback (RLHF),如何从用户的明确需要中学习。

    这份工作是将大模型往人类偏好进行结合的一次尝试,其使用强化学习PPO而不是监督学习来微调语言模型GPT-2。

    为了弄清人类偏好,首先需要从预训练好的GPT-2 开始,并通过询问人工标注者四个生成样本中哪个样本最好来收集数据集。

    基于收集的数据集,尝试基于强化学习微调GPT,简要模型结构如下图,其需要训练两个模块一个是GPT模型(policy),一个是奖励模型(reward model),其中奖励模型用于模拟人类对四个样本的打分以代表其选择偏好。

    整体的训练过程是:

    • 从数据集中采样context x,并使用policy网络得到4种句子,即(x、y0、y1、y2、y3),其中y的下标表示让人类的优先级排序。

    • 训练policy网络。从人类标注数据中进行训练,其中r是奖励模型的分数,该loss尝试让人类更喜欢的句子得分更高,从而来微调policy生成更符合人类偏好的句子。

    • 训练奖励模型, 其中为了分布变化太远,会额外添加一个带有期望KL惩罚。

    • 在online模式中,可以继续收集额外的样本,并定期重新训练奖励模型r。

    这篇论文的主要启发在于,人类偏好的约束、使用PPO的训练方法可以使模型在online的过程中持续学习。

    • paper:Fine-Tuning Language Models from Human Preferences

    • link:https://arxiv.org/abs/1909.08593

    • code:https://github.com/openai/lm-human-preferences

    随后的这份工作会更为贴近instructGPT和chatGPT,其提出主要按照人类偏好的summarization场景中。

    其模型框架架构如下图所示,和instructGPT类似,主要分为三步:先收集人类在成对摘要上偏好的数据集,然后通过监督学习训练一个奖励模型(RM)来预测人类偏好的摘要。最后,利用奖励模型RM给出的分数去微调生成摘要的大模型,以上模型都基于GPT-3进行微调。

    • Collect human feedback 。来自reddit.com的300万篇不同主题的文章以及由原海报撰写的文章摘要,然后由人工标注摘要的顺序。

    • Train reward model 。奖励函数预测摘要之间谁更好,因此利用成对损失函数进行监督训练即可。

    Train policy with PPO 。和前一篇文章一样,利用奖励模型得到一种偏好策略以产生更高质量的摘要结果。

    其中KL惩罚由两个作用,一是阻止模型崩溃为单一模式。其次,它确保了模型不会因为太追求学习偏好而偏离原本的摘要模型太远。

    这份工作虽然局限于摘要,但在训练框架是为后续的instructGPT打下了基础,即人工标注+强化学习。

    • paper:Training language models to follow instructions with human feedback

    • link:https://arxiv.org/abs/2203.02155

    从模型结构上与上一篇文章几乎一摸一样,但它通向了更为宽广的领域。通过收集带有更多人类instruct的自然语言文本句子,使其可以完成各种nlp任务,正式进化为一个全能模型。

    实现上仍然分为三个步骤,

    • 监督学习 。收集人工编写的期望模型如何输出的数据集,并使用其来训练GPT3。

    • 奖励模型 。收集人工标注的模型多个输出之间的排序数据集。并训练一个奖励模型,以预测用户更喜欢哪个模型输出。

    • 微调GPT3 。使用这个奖励模型作为奖励函数,以PPO的方式,微调监督学习得到的GPT3。

    KL惩罚仍然是为了对减轻奖励模型的过度优化。此外还会将训练前的梯度混合到PPO梯度中,以维持模型在更多通用NLP任务上的性能。

    更多细节可以见开头的讲解视频[5]

    目前只知道chatGPT基于instructGPT进行训练,但具体细节没有更多的披露,但是从以上几份工作中,可以窥见一些技术路线。

    如chatGPT可以轻轻松松根据人类的语言完成从对话、写诗、编故事、写代码等等等等等各种任务,大概率就是基于FLAN模型这种迁移任务的方式,从而能够满足各位用户老爷们的奇怪需要。而instructGPT则应该是chatGPT用于训练的主要架构,包括数据集构建、模型框架和训练目标等等。

    最后想再放一次这张图,博主也需要再好好悟一悟。

    一起交流

    想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 /?等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

    [1]

    具身智能综述和应用(Embodied AI): https://blog.csdn.net/qq_【【QQ微信】】/【【微信】】tails/128264098

    [2]

    多模态中的指令控制: https://blog.csdn.net/qq_【【QQ微信】】/【【微信】】tails/128249922

    [3]

    智源人工智能前沿报告(2021-2022年度): http://lib.ia.ac.cn:8003/ContentDelivery/【【QQ微信】】/智源人工智能前沿报告(BAAI AI Frontiers)_71DC14922FAFCFBF907D4844BF892292.pdf

    [4]

    视频讲解chatGPT: https://www.bilibili.com/video/【【微信】】/

    [5]

    讲解视频: https://www.bilibili.com/video/【【微信】】/