10大开源软件chatgpt

Super【【微信】】（SFT）：使用人工编写的期望模型如何输出的数据集，对GPT-3进行微调。
Reward Model（RM）：使用人工标注的排序数据，训练奖励模型，预测人类更喜欢哪个输出。
强化学习微调 SFT：使用奖励模型作为强化学习优化目标，微调SFT模型。

Github库名	方向	star数	fork数	issue总数
llama	预训练模型	15700	2.500	151
opt	预训练模型	5500	622	101
bloom	预训练模型	637	63	12
gpt2	预训练模型	18300	4600	115
GLM	预训练模型	974	124	41
Open-Assistant	sft+rm+强化学习	19400	1500	314
RLHF	sft+rm+强化学习	9	2
ColossalAI	sft+rm+强化学习	19200	2100	290
trlx	强化学习	2600	252	60
trl	强化学习	2200	246	20
【【微信】】	强化学习	1200	112	23

基于上面汇总表格，重点讲解下，如下几个部分：

预训练模型参数规模和数据源
强化学习库
全家桶方案【sft+rm+强化学习】

模型名称	参数里	数据源	出品公司
llama	7B~65B	English CommonCrawlC4 Githubwikibook	facebook
PaLM	540B	wiki	谷歌
Chinchilla	70B	BookCorpus语料库	deepmind
GLM	10B	中文：中文QA和对话【【【微信】】】英文：wiki+book+PilePile：800GB跨领域的不同种类英文数据集	清华
bloom	176B	46 natural languages13 programming languages	huggingface
gpt2	1.5B	Common CrawlWebTextbookswiki	openai
opt	175B	CommonCrawlRoBERTa Pile (Gao et al., 2021a)Reddit	facebook

llama模型训练数据源

llama模型训练数据源

bloom型训练数据源

从目前来看，落地中国场景，首选GLM，其次是llama了，并且好多公司基于llama做指令微调，超过可打平chatGPT【在对话方面，其他方面尤其是数理逻辑不太行】

使用过的，强烈推荐如下3个

强大的transformer 强化学习库，当前支持模型有Hugging Face【基于transformers库训练CausalLm和Bloom】、facebook【opt】、google【opt】、EleutherAI【gpt-neox-20b】，还支持加速能力，超过20B参数量，就是感觉封装的有点重，除了上述预训练模型外，不支持自定义预训练模型。

轻量版强化学习ppo模块库，基于transformers 库【Hugging Face】实现的，代码很轻量化，只要是基于ransformers 库开发的预训练库，均可适配，强烈推荐的，用它没毛病。

不限制预训练模型，公开预训练还是自研预训练模型即可，代码随意改，只要能符合跑通逻辑即可。所以改造成本高，但可控制，结合业务特点灵活改造都行，需要把源码逐行阅读后，才能改造起来。唯一缺点是优势函数没有按照论文落地的，

论文：ad【【微信】】=r + gamma * V(s') - V(s)

实际代码：ad【【微信】】=r - V(s) ，缺少V(s')即为下一个状态的值，个人觉得是考虑效率方面，具体原因可以再对比分析和跟作者沟通原因。

注：针对强化学习知识，后续会出一系列专题

核心代码有如下几个模块，分别是train_sft.py、train_reward_model.py、train_prompts.py，是支持多机多卡和单机多卡等模式，预训练模型有gpt-2、bloom、opt、llama等，还有web服务类似chatGPT功能，还处于demo阶段，不能预期太高。

train_sft

数据源：104K双语中英文数据集

预训练模型：gpt-2、bloom、opt、llama

其他：支持单机和分布式等模式

源码运行shell脚本中模型是LLaMa-7B

train_reward_model

数据源：Dahoas/rm-static和Anthropic/hh-rlhf

预训练模型：gpt-2、bloom、opt、llama

其他：支持单机和分布式等模式

源码运行shell脚本中模型是LLaMa-7B

train_prompts

数据源：Dahoas/rm-static和Anthropic/hh-rlhf

预训练模型：gpt-2、bloom、opt、llama，critic模块来自预训练reward模型

其他：支持单机和分布式等模式

源码运行shell脚本中,预训练模型是LLaMa-7B，奖励模型是预训练的Reward 模型。

注：

代码中transformers库不是官方的，是这家公司自己维护的，所以要安装来自 clone ttps:// ，我之前用官方的4.20.1，但没有LLaMA models，无法正常运行
代码过于面向对象设计，所以梳理代码逻辑，要切换父类和子类找核心代码，得细心看代码。
运行代码，会出现某个文件找不到，是目录路径问题，需要手动调整

总体来说，这框架代码已非常完美了，预训练llama模型，就可以跑通以上3个模块，还可以部署web server，并对模型量化，支持低算力机器部署等。

国人写的一套框架，基于transformers库实现的【过度依赖这套框架实现，核心要编写代码较少】，核心代码文件是train_sft.py、train_reward.py、train_rlhf.py等模块，使用apex和deepspeed等会加速模型训练

预训练模型：支持Pangu和GLM为主，其他目前测试是不支持的

数据源：百科、知道问答、对联、古文、古诗词、微博新闻评论等

评测数据：CLUE Benchmark

强化学习ppo：使用trlx框架实现的

总体来说，做个demo是足够的，但灵活性不行。参考这个代码，结合自身业务，可快速实现一套方案。

大模型预训练数据【LLM】、有监督模型微调数据【SFT】、人类反馈打分数据【RM】

英文：wiki+book+Pile，包包脸datasets

中文：【【微信】】

英文：