推荐几款好用的chatgpt chatgpt最神奇的功能
2023年11月20日 每日一猜答案:。 答案:ABC。 每日一猜答案分析:
推荐几款好用的长杆,推荐几款好用的避孕套延时避孕套,推荐几款好用的弹力素,推荐几款好用的避孕套1.Hotoke AI
它是一个基于ChatGPT的佛祖平台。非常火!上线仅仅几天,已经为数万人“解决烦恼”,ChatGPT现在已经开始为人类 “佛系”排忧解难了。
hotoke.ai
2.ChatPDF
基于chatGPT技术的在线应用 C通过它,可以让ChatGPT 帮我们读 PDF 文档,提取关键内容
【【网址】】
3.OpenAI Translator
基於 ChatGPT API 的翻译程序,翻译出来的结果更符合真人翻译,而不是硬邦邦的机翻。
【【网址】】/yetone/openai-translator
4.通过AI技术帮我们免费设计LOGO
wordasimage.github.io
5.ChatExcel
这是一款最近开始火的AI产品,也是基于ChatGPT技术,仅通过聊天来操控您的Excel表格
【【网址】】
10大开源软件chatgpt
- Super【【微信】】(SFT):使用人工编写的期望模型如何输出的数据集,对GPT-3进行微调。
- Reward Model(RM):使用人工标注的排序数据,训练奖励模型,预测人类更喜欢哪个输出。
- 强化学习微调 SFT:使用奖励模型作为强化学习优化目标,微调SFT模型。
Github库名 | 方向 | star数 | fork数 | issue总数 |
llama | 预训练模型 | 15700 | 2.500 | 151 |
opt | 预训练模型 | 5500 | 622 | 101 |
bloom | 预训练模型 | 637 | 63 | 12 |
gpt2 | 预训练模型 | 18300 | 4600 | 115 |
GLM | 预训练模型 | 974 | 124 | 41 |
Open-Assistant | sft+rm+强化学习 | 19400 | 1500 | 314 |
RLHF | sft+rm+强化学习 | 9 | 2 | |
ColossalAI | sft+rm+强化学习 | 19200 | 2100 | 290 |
trlx | 强化学习 | 2600 | 252 | 60 |
trl | 强化学习 | 2200 | 246 | 20 |
【【微信】】 | 强化学习 | 1200 | 112 | 23 |
基于上面汇总表格,重点讲解下 ,如下几个部分:
- 预训练模型参数规模和数据源
- 强化学习库
- 全家桶方案【sft+rm+强化学习】
模型名称 | 参数里 | 数据源 | 出品公司 |
llama | 7B~65B | English CommonCrawlC4 Githubwikibook | |
PaLM | 540B | wiki | 谷歌 |
Chinchilla | 70B | BookCorpus语料库 | deepmind |
GLM | 10B | 中文:中文QA和对话【【【微信】】】英文:wiki+book+PilePile:800GB跨领域的不同种类英文数据集 | 清华 |
bloom | 176B | 46 natural languages13 programming languages | huggingface |
gpt2 | 1.5B | Common CrawlWebTextbookswiki | openai |
opt | 175B | CommonCrawlRoBERTa Pile (Gao et al., 2021a)Reddit |
llama模型训练数据源
bloom型训练数据源
从目前来看,落地中国场景,首选GLM,其次是llama了,并且好多公司基于llama做指令微调,超过可打平chatGPT【在对话方面,其他方面尤其是数理逻辑不太行】
使用过的,强烈推荐如下3个
强大的transformer 强化学习库,当前支持模型有Hugging Face【基于transformers库训练CausalLm和Bloom】、facebook【opt】、google【opt】、EleutherAI【gpt-neox-20b】,还支持加速能力,超过20B参数量,就是感觉封装的有点重,除了上述预训练模型外,不支持自定义预训练模型。
轻量版强化学习ppo模块库,基于transformers 库【Hugging Face】实现的,代码很轻量化,只要是基于ransformers 库开发的预训练库,均可适配,强烈推荐的,用它没毛病。
不限制预训练模型,公开预训练还是自研预训练模型即可,代码随意改,只要能符合跑通逻辑即可。所以改造成本高,但可控制,结合业务特点灵活改造都行,需要把源码逐行阅读后,才能改造起来。唯一缺点是优势函数没有按照论文落地的,
论文:ad【【微信】】=r + gamma * V(s') - V(s)
实际代码:ad【【微信】】=r - V(s) ,缺少V(s')即为下一个状态的值,个人觉得是考虑效率方面,具体原因可以再对比分析和跟作者沟通原因。
注:针对强化学习知识,后续会出一系列专题
核心代码有如下几个模块,分别是train_sft.py、train_reward_model.py、train_prompts.py,是支持多机多卡和单机多卡等模式,预训练模型有gpt-2、bloom、opt、llama等,还有web服务类似chatGPT功能,还处于demo阶段,不能预期太高。
train_sft
数据源:104K双语中英文数据集
预训练模型:gpt-2、bloom、opt、llama
其他:支持单机和分布式等模式
源码运行shell脚本中模型是LLaMa-7B
train_reward_model
数据源:Dahoas/rm-static和Anthropic/hh-rlhf
预训练模型:gpt-2、bloom、opt、llama
其他:支持单机和分布式等模式
源码运行shell脚本中模型是LLaMa-7B
train_prompts
数据源:Dahoas/rm-static和Anthropic/hh-rlhf
预训练模型:gpt-2、bloom、opt、llama,critic模块来自预训练reward模型
其他:支持单机和分布式等模式
源码运行shell脚本中,预训练模型是LLaMa-7B,奖励模型是预训练的Reward 模型。
注:
- 代码中transformers库不是官方的,是这家公司自己维护的,所以要安装来自 clone ttps:// ,我之前用官方的4.20.1,但没有LLaMA models,无法正常运行
- 代码过于面向对象设计,所以梳理代码逻辑,要切换父类和子类找核心代码,得细心看代码。
- 运行代码,会出现某个文件找不到,是目录路径问题,需要手动调整
总体来说,这框架代码已非常完美了,预训练llama模型,就可以跑通以上3个模块,还可以部署web server,并对模型量化,支持低算力机器部署等。
国人写的一套框架,基于transformers库实现的【过度依赖这套框架实现,核心要编写代码较少】,核心代码文件是train_sft.py、train_reward.py、train_rlhf.py等模块,使用apex和deepspeed等会加速模型训练
预训练模型:支持Pangu和GLM为主,其他目前测试是不支持的
数据源:百科、知道问答、对联、古文、古诗词、微博新闻评论等
评测数据:CLUE Benchmark
强化学习ppo:使用trlx框架实现的
总体来说,做个demo是足够的,但灵活性不行。参考这个代码,结合自身业务,可快速实现一套方案。
大模型预训练数据【LLM】、有监督模型微调数据【SFT】、人类反馈打分数据【RM】
英文:wiki+book+Pile,包包脸datasets
中文:【【微信】】
英文:
- InstructionWild【104K双语中英文数据集】
中文:
- InstructionWild【104K双语中英文数据集】
- 百科、知道问答、对联、古文、古诗词、微博新闻评论,链接: 提取码: ssng
英文:Dahoas/rm-static和Anthropic/hh-rlhf
中文:百科、知道问答、对联、古文、古诗词、微博新闻评论,链接: 提取码: ssng
- 预训练模型:GLM
- 奖励模型:ColossalAI和RLHF等都行
- 强化学习PPO:trl,加速训练用trlx
- 数据:结合业务需求
- 预训练模型:llama
- 奖励模型:ColossalAI和RLHF等都行
- 强化学习PPO:ColossalAI或trl,加速训练用trlx
- 数据:结合业务需求
- 预训练模型:基于transformers或其他框架预训练
- 奖励模型:ColossalAI和RLHF等都行
- 强化学习PPO:ColossalAI
- 数据:结合业务需求
- GPT-3 + RL 全流程训练开源整理
- 人类反馈强化学习RLHF又一个 开源项目实现Huggingface TRL
- ChatGLM
- summarize-from-feedback
- PaLM: Scaling Language Modeling with Pathways
- LLaMA论文
- Chinchilla论文
- 开箱即用,完整版 ChatGPT 克隆方案,开源了!
- 300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生,暴杀「草泥马」