ChatGPT从入门到精通

互联资讯 2023-04-10 20:48:05 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

本篇文章是 ChatGPT 系列文章的最后一篇。在之前的文章中，依次介绍了 Transformer->GPT1->GPT2->GPT3，下面是参考链接：

绝密伏击：【【淘密令】】（一）：十分钟读懂 Transformer绝密伏击：【【淘密令】】（一）：Tensorflow实现Transformer绝密伏击：【【淘密令】】（二）：十分钟读懂 GPT-1绝密伏击：【【淘密令】】（二）：Tensorflow实现GPT-1绝密伏击：【【淘密令】】（三）：十分钟读懂 GPT-2绝密伏击：【【淘密令】】（三）：Tensorflow实现GPT-2绝密伏击：【【淘密令】】（四）：十分钟读懂 GPT-3绝密伏击：GPT-4技术文档

如果你已经看过上面的文章，那么理解 ChatGPT 的技术原理就简单的多。

实际上 OpenAI 并没有公布 ChatGPT 的技术细节，但是在2022年的时候，曾经放出过 InstructGPT 的论文（Training language models to follow instructions with human feedback），而根据 OpenAI 的说法，ChatGPT 是 InstructGPT 的兄弟模型。

我们通过下面的图，也可以看出 ChatGPT 和 InstructGPT 之间的关系。

本篇文章，我们一起来了解一下 ChatGPT 背后的技术原理。

既然 ChatGPT 是由 GPT-3 迭代过来的，那么原有的 GPT-3 究竟有哪些问题？ChatGPT 又是如何做的改进？

如果你明白了上面两个问题，那么 ChatGPT 的核心你就算真正掌握了。

GPT-3 最大的问题就是训练目标和用户意图不一致。也就是 GPT-3 并没有真正拟合用户真实的问题（prompt）。

GPT-3 本质上是语言模型，优化目标也是标准语言模型的目标，即最大化下一个词出现的概率。GPT-3 的核心技术是 Next-token-prediction 和 Masked-language-modeling。

在第一种方法中，模型被给定一个词序列作为输入，并被要求预测序列中的下一个词。如果为模型提供输入句子：

“猫坐在”

它可能会将下一个单词预测为「垫子」、「椅子」或「地板」，因为在前面的上下文中，这些单词出现的概率很高。

Masked-language-modeling 方法是 Next-token-prediction 的变体，其中输入句子中的一些词被替换为特殊 token，例如[MASK]。然后，模型被要求预测应该插入到 mask 位置的正确的词。如果给模型一个句子：

“The[MASK]sat on the ”

它可能会预测 MASK 位置应该填的词是「cat」、「dog」。

这些目标函数的优点之一是，它允许模型学习语言的统计结构，例如常见的词序列和词使用模式。这通常有助于模型生成更自然、更流畅的文本，并且是每个语言模型预训练阶段的重要步骤。

然而这些目标函数也可能导致问题，这主要是因为模型无法区分重要错误和不重要错误。一个非常简单的例子是，如果给模型输入句子：

"罗马帝国[MASK]奥古斯都的统治"

它可能会预测 MASK 位置应该填入「开始于」或「结束于」，因为这两个词的出现概率都很高。

更一般地说，这些训练策略可能会导致语言模型在某些更复杂的任务中出现偏差，因为仅经过训练以预测文本序列中的下一个词（或掩码词）的模型可能不一定会学习一些其含义的更高层次的表示。因此，该模型难以泛化到需要更深入地理解语言的任务或上下文。

这也导致了 GPT-3 这样的语言模型，很难理解用户的真实意图，经常出现答非所问的情况，一本正经的胡说八道。

因此 ChatGPT 要解决的核心问题，就是怎么让模型和用户对齐。

备注：模型和用户对齐。就是让模型学会理解人类的命令指令的含义（比如给我写一段小作文生成类问题、知识回答类问题、头脑风暴类问题等不同类型的命令），以及让模型学会判断对于给定 prompt 输入指令（用户的问题），什么样的答案是优质的（富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准）。

那么 ChatGPT 又是如何做的改进？核心方法就是引入“人工标注数据+强化学习”（RLHF，Reinforcement Learning from Human Feedback ，这里的人工反馈其实就是人工标注数据）来不断Fine-tune预训练语言模型。

在“人工标注数据+强化学习”框架下，训练 ChatGPT 主要分为三个阶段。

第一阶段使用标准数据（prompt 和对应的回答）进行微调，也就是有监督微调 SFT（Super【【微信】】）
第二个阶段，训练回报模型（Reward Model, RM）。给定 prompt（大约3万左右），使用微调后的模型生成多个回答，人工对多个答案进行排序，然后使用 pair-wise learning 来训练 RM，也就是学习人工标注的顺序（人工对模型输出的多个答案按优劣进行排序）。
最后一个阶段就是使用强化学习，微调预训练语言模型。

后面我们会详细介绍上面的三个阶段。

这里有一个疑问，为啥不直接使用 SFT，而是又要引入强化学习？

这个问题非常重要。强化学习的目的是让模型的答案更接近人类意图，本阶段无需人工标注数据，而是利用上一阶段学好的 RM 模型，靠 RM 打分结果来更新预训练模型参数。

既然目标是让模型能更好拟合<prompt, answer>，那为什么不直接使用 SFT，这样不是更直接吗？或者为了拟合<prompt, answer1, answer2,...>这个序，再做一次 Fine-tuning。

之所以没有这样做，主要原因还是标注数据太少了，一共才3万条标注数据。换句话说，如果标注数据足够多，有可能 SFT 就足够了。

那么怎么能获取更多 prompt？就像 OpenAI 一样，快速推出产品 ChatGPT，然后不断收集用户的 prompt，再把收集的数据用于 SFT。这也是为什么 ChatGPT 越来越强，因为它在不断的收集->训练->收集...

在“人工标注数据+强化学习”框架下，具体而言，ChatGPT 的训练过程分为以下三个阶段：

为了让 ChatGPT 初步具备理解指令中（prompt）蕴含的意图，首先会从测试用户提交的 prompt (就是指令或问题)中随机抽取一批，靠专业的标注人员，给出指定 prompt 的高质量答案，然后用这些人工标注好的<prompt, answer> 数据来 Fine-tune GPT-3 模型。经过这个过程，我们可以认为 ChatGPT 初步具备了理解人类 prompt 中所包含意图，并根据这个意图给出相对高质量回答的能力，但是由于样本太少，很难达到理想效果。

我们来看一下这部分标注数据都有哪些问题：

问题类型	占比（%）
生成任务（Generation）	45.6%
开放问答（Open QA）	12.4%
头脑风暴（Brainstorming）	11.2%
聊天（Chat）	8.4%
重写（Rewrite）	6.6%
摘要（Summarization）	4.2%
分类（Classification）	3.5%
其它（Other）	3.5%
封闭问答（Closed QA）	2.6%
抽取（【【微信】】）	1.9%

这里面最主要的问题是生成任务，然后是一些问答，头脑风暴。下面看几个例子：

问题类型	Prompt
头脑风暴（Brainstorming）	列出5个方法用于重新对职业充满热情
生成任务（Generation）	编写一个短篇故事，讲述一只熊前往海滩，结识了一只海豹，然后返回家中的经历。
重写（Rewrite）	将下面一段话翻译成法语：<English sentence>

SFT 就是根据这些问题和答案，对 GPT-3 进行微调。

这个阶段的主要目的是通过人工标注训练数据，来训练回报模型。具体而言，随机抽样一批用户提交的 prompt (大部分和第一阶段的相同)，使用第一阶段 Fine-tune 好的模型，对于每个 prompt，由之前的 SFT 模型生成 K 个不同的回答，于是模型产生出了<prompt, answer1>, <prompt, answer2>….<prompt, answerK>数据（这里面 K 是4到9之间）。之后，标注人员对 K 个结果按照很多标准（上面提到的相关性、富含信息性、有害信息等诸多标准）综合考虑进行排序，给出 K 个结果的排名顺序，这就是此阶段人工标注的数据。

接下来，我们准备利用这个排序结果数据来训练回报模型，采取的训练模式其实就是平常经常用到的 pair-wise learning to rank。对于K个排序结果，两两组合，形成个训练数据对，ChatGPT 采取 pair-wise loss 来训练回报模型。RM 模型接受一个输入<prompt, answer>，给出评价回答质量高低的回报分数 Score。对于一对训练数据<answer1, answer2>，我们假设人工排序中 answer1 排在 answer2 前面，那么 Loss 函数则鼓励 RM 模型对<prompt, answer1> 的打分要比 <prompt, answer2> 的打分要高。

下面是回报模型的损失函数：

其中表示回报模型的输出，是给定的 prompt，表示对于的回答。和表示回答排在回答前面，类似上面的 answer1 排在 answer2 前面。

总结下：在这个阶段里，首先由 SFT 监督模型为每个 prompt 产生 K 个结果，人工根据结果质量由高到低排序，以此作为训练数据，通过 pair-wise learning to rank 模式来训练回报模型。对于学好的 RM 模型来说，输入<prompt, answer>，输出结果的质量得分，得分越高说明产生的回答质量越高。

本阶段无需人工标注数据，而是利用上一阶段学好的 RM 模型，靠 RM 打分结果来更新预训练模型参数。具体而言，首先，从用户提交的 prompt 里随机采样一批新的命令（指的是和第一第二阶段不同的新的 prompt），且由一阶段的 SFT 模型来初始化 PPO 模型的参数。然后，对于随机抽取的 prompt，使用 PPO 模型生成回答answer，并用上一阶段训练好的 RM 模型给出 answer 质量评估的回报分数 score，这个回报分数就是 RM 赋予给整个回答的整体 reward。

强化学习的目标函数如下：

这里面第一项是最大化回报 score，第二项是让强化学习的输出不要偏离 SFT 太多，最后一项是保证微调的同时，原有语言模型的效果不会变差。

上图是最终的效果对比。对比的是 SFT 175B 的GPT-3 模型。可以看到只做 SFT，1.3B 和 6B 都干不过 175B，但是加入强化学习后，1.3B 的效果就比 175B 的效果还好。

GPT 出来之后，基于 GPT 架构的大模型层出不穷，比较知名的有清华大学的 GLM (General Language Model Pretraining)模型，百度的文心一言。而后面腾讯、阿里、字节、知乎，都会推出自己的大模型，这些大模型用的数据可能不一样，但是有一样是共同的：都是基于 GPT 进行预训练。

目前 ChatGPT 的相关技术已经介绍完了，而目前 OpenAI 已经推出了最新版本的 GPT-4，支持多模态，可以理解图片，后面应该会加入视频理解。

AI 的时代，真的来临了。

Introducing ChatGPT

张俊林：ChatGPT会取代搜索引擎吗

机器之心：深入浅出，解析ChatGPT背后的工作原理

数据科学人工智能：ChatGPT 算法原理

How ChatGPT actually works

JioNLP团队：一文读懂ChatGPT模型原理

ChatGPT实现原理 chatgpt到底是如何实现的

chatgpt是什么意思,chatgpt怎么下载,chatgpt怎么读,chatgpt中文

一、AI框架重要性日益突显，框架技术发展进入繁荣期，国内AI框架技术加速发展：

1、AI框架作为衔接数据和模型的重要桥梁，发展进入繁荣期，国内外框架功能及性能加速迭代；

2、Pytorch、Tensorflow占据AI框架市场主导地位，国内大厂加速布局AI框架技术；

3、AI框架技术从工具逐步走向社区，生态加速形成，未来围绕安全可信、场景落等维度呈现显著发展趋势；

二、GPT开启AI大模型时代，国内外大厂发力布局，商业化空间加速打开：

1、数据、算法、模型三轮驱动AI发展，大模型优势显著，成为AI主流方向；

2、GPT开启千亿参数级AI大模型时代，语言、视觉、科学计算等大模型快速发展；

3、微软加速AI商用化进程，国内大厂发力布局，看好在细分场景下的应用落地；

ChatGPT：AI模型框架研究（2023）

《166份重磅ChatGPT专业报告》

ChatGPT对GPU算力的需求测算与相关分析

英伟达2023 GTC大会及报告合集

ChatGPT火爆出圈，AI算力和行业应用潜能巨大

ChatGPT对数字孪生体发展的启示

GPT将如何影响我们的工作？

华为AI盘古大模型研究框架（2023）

《PLC可编程技术研究及报告合集》

1、PLC技术在机械电气控制装置的应用初探 2、PLC可编程逻辑控制研究―多元化发展，行业前景乐观

3、中国PLC行业研究报告（2022）

《OpenAI：GPT-4技术报告(2023)》

1、GPT-4技术报告(英)-OpenAI(2023)

2、GPT-4技术报告(中)-OpenAI(2023)

浙商证券：ChatGPT研究框架（2023）

ChatGPT芯片算力：研究框架

专题研究：ChatGPT：深度拆解（2023）

国泰君安：ChatGPT 研究框架（2023）

ChatGPT：AI模型框架研究（2023）”，重点介绍国内外AI主流厂商及在ChatGPT热潮下，主要的AI框架。

百度坐拥大模型+训练框架+数据+社区多重优势，百度有望成为AIGC领域率先实现商业化的领头羊。

Google在各模态领域布局AI模型，并提供多项功能服务模块。

阿里巴巴率先构建大模型统一底座、通过训练策略大幅提升稀疏参数大模型框架训练效率，在大模型框架上具备领先地位。

华为盘古大模型深耕实业，拥有更广泛的行业大模型，具备更强的落地能力。

微软发布Microsoft 365 Copilot，引领下一代AI大模型，Copilot AI 功能的应用场景，大幅提高办公效率。

下载内容：

信创研究专题框架

从软件算法生态看GPU发展与局限

N【【微信】】架构白皮书

GPU技术专题下载链接

《GPU高性能计算概述》?

《GPU深度学习基础介绍》?

《OpenACC基本介绍》?

《CUDA CC?编程介绍》?

《CUDA Fortr基本介绍》

深度报告：GPU研究框架

CPU和GPU研究框架合集

大话处理器：处理器基础知识深度读本

微架构：处理器的内心世界

MIPS指令与汇编

CPU架构与故障维修

《六大国产CPU架构分析报告》

1、开启国产CPU和AI芯片的腾飞之路

2、CPU生态价值与机遇研究

3、国产基础软硬件，重塑IT产业生态

4、中流击水：六大国产CPU厂商分析

5、聚力突破核心技术，信创产业扬帆起航

服务器研究框架

服务器系列技术（4本）

《RISC-V技术介绍及报告》

《飞腾CPU专题报告》

1、飞腾：国产CPU巨头，充分受益国产化浪潮

2、国产CPU全对比，飞腾有望异军突起

《国产CPU及研究框架》

1、国产CPU正从可用向好用转变，自主可控前景可期

2、国产CPU全对比，飞腾有望异军突起

3、专题报告：国产CPU研究框架

4、深度报告：CPU研究框架

《龙芯/海光CPU厂商专题报告》

1、龙芯：国产CPU引领者，构建自主可控生态体系（2022）

2、海光：进击的国产化CPU GPU领航者（2022）

3、海光：安全、性能、生态铸造国产高端处理器龙头

4、龙芯：深耕CPU行业20余年，国产化替代大有可为

4、2023年半导体设计：复苏与换挡

5、光刻胶：半导体产业核心卡脖子环节，国内蓄势待发

CPU和GPU研究框架合集

下载链接：

ChatGPT/AIGC技术合集（160+篇）

本文地址： https://www.528683.com//show-400777.html