庆云古诗词

庆云古诗词

推荐几款好用的chatgpt chatgpt最神奇的功能

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

推荐几款好用的长杆,推荐几款好用的避孕套延时避孕套,推荐几款好用的弹力素,推荐几款好用的避孕套

1.Hotoke AI

它是一个基于ChatGPT的佛祖平台。非常火!上线仅仅几天,已经为数万人“解决烦恼”,ChatGPT现在已经开始为人类 “佛系”排忧解难了。

hotoke.ai

2.ChatPDF

基于chatGPT技术的在线应用 C通过它,可以让ChatGPT 帮我们读 PDF 文档,提取关键内容

【【网址】】

3.OpenAI Translator

基於 ChatGPT API 的翻译程序,翻译出来的结果更符合真人翻译,而不是硬邦邦的机翻。

【【网址】】/yetone/openai-translator

4.通过AI技术帮我们免费设计LOGO

wordasimage.github.io

5.ChatExcel

这是一款最近开始火的AI产品,也是基于ChatGPT技术,仅通过聊天来操控您的Excel表格

【【网址】】


10大开源软件chatgpt


  1. Super【【微信】】(SFT):使用人工编写的期望模型如何输出的数据集,对GPT-3进行微调。
  2. Reward Model(RM):使用人工标注的排序数据,训练奖励模型,预测人类更喜欢哪个输出。
  3. 强化学习微调 SFT:使用奖励模型作为强化学习优化目标,微调SFT模型。
Github库名方向star数fork数issue总数
llama预训练模型157002.500151
opt预训练模型5500622101
bloom预训练模型6376312
gpt2预训练模型183004600115
GLM预训练模型97412441
Open-Assistantsft+rm+强化学习194001500314
RLHFsft+rm+强化学习92
ColossalAIsft+rm+强化学习192002100290
trlx强化学习260025260
trl强化学习220024620
【【微信】】强化学习120011223

基于上面汇总表格,重点讲解下 ,如下几个部分:

  • 预训练模型参数规模和数据源
  • 强化学习库
  • 全家桶方案【sft+rm+强化学习】
模型名称参数里数据源出品公司
llama7B~65BEnglish CommonCrawlC4 Githubwikibookfacebook
PaLM540Bwiki谷歌
Chinchilla70BBookCorpus语料库deepmind
GLM10B中文:中文QA和对话【【【微信】】】英文:wiki+book+PilePile:800GB跨领域的不同种类英文数据集清华
bloom176B46 natural languages13 programming languageshuggingface
gpt21.5BCommon CrawlWebTextbookswikiopenai
opt175BCommonCrawlRoBERTa Pile (Gao et al., 2021a)Redditfacebook

llama模型训练数据源

llama模型训练数据源

bloom型训练数据源

bloom型训练数据源

从目前来看,落地中国场景,首选GLM,其次是llama了,并且好多公司基于llama做指令微调,超过可打平chatGPT【在对话方面,其他方面尤其是数理逻辑不太行】

使用过的,强烈推荐如下3个

强大的transformer 强化学习库,当前支持模型有Hugging Face【基于transformers库训练CausalLm和Bloom】、facebook【opt】、google【opt】、EleutherAI【gpt-neox-20b】,还支持加速能力,超过20B参数量,就是感觉封装的有点重,除了上述预训练模型外,不支持自定义预训练模型。

轻量版强化学习ppo模块库,基于transformers 库【Hugging Face】实现的,代码很轻量化,只要是基于ransformers 库开发的预训练库,均可适配,强烈推荐的,用它没毛病。

不限制预训练模型,公开预训练还是自研预训练模型即可,代码随意改,只要能符合跑通逻辑即可。所以改造成本高,但可控制,结合业务特点灵活改造都行,需要把源码逐行阅读后,才能改造起来。唯一缺点是优势函数没有按照论文落地的,

论文:ad【【微信】】=r + gamma * V(s') - V(s)

实际代码:ad【【微信】】=r - V(s) ,缺少V(s')即为下一个状态的值,个人觉得是考虑效率方面,具体原因可以再对比分析和跟作者沟通原因。

注:针对强化学习知识,后续会出一系列专题

核心代码有如下几个模块,分别是train_sft.py、train_reward_model.py、train_prompts.py,是支持多机多卡和单机多卡等模式,预训练模型有gpt-2、bloom、opt、llama等,还有web服务类似chatGPT功能,还处于demo阶段,不能预期太高。

train_sft

数据源:104K双语中英文数据集

预训练模型:gpt-2、bloom、opt、llama

其他:支持单机和分布式等模式

源码运行shell脚本中模型是LLaMa-7B

train_reward_model

数据源:Dahoas/rm-static和Anthropic/hh-rlhf

预训练模型:gpt-2、bloom、opt、llama

其他:支持单机和分布式等模式

源码运行shell脚本中模型是LLaMa-7B

train_prompts

数据源:Dahoas/rm-static和Anthropic/hh-rlhf

预训练模型:gpt-2、bloom、opt、llama,critic模块来自预训练reward模型

其他:支持单机和分布式等模式

源码运行shell脚本中,预训练模型是LLaMa-7B,奖励模型是预训练的Reward 模型。

注:

  • 代码中transformers库不是官方的,是这家公司自己维护的,所以要安装来自 clone ttps:// ,我之前用官方的4.20.1,但没有LLaMA models,无法正常运行
  • 代码过于面向对象设计,所以梳理代码逻辑,要切换父类和子类找核心代码,得细心看代码。
  • 运行代码,会出现某个文件找不到,是目录路径问题,需要手动调整

总体来说,这框架代码已非常完美了,预训练llama模型,就可以跑通以上3个模块,还可以部署web server,并对模型量化,支持低算力机器部署等。

国人写的一套框架,基于transformers库实现的【过度依赖这套框架实现,核心要编写代码较少】,核心代码文件是train_sft.py、train_reward.py、train_rlhf.py等模块,使用apex和deepspeed等会加速模型训练

预训练模型:支持Pangu和GLM为主,其他目前测试是不支持的

数据源:百科、知道问答、对联、古文、古诗词、微博新闻评论等

评测数据:CLUE Benchmark

强化学习ppo:使用trlx框架实现的

总体来说,做个demo是足够的,但灵活性不行。参考这个代码,结合自身业务,可快速实现一套方案。

大模型预训练数据【LLM】、有监督模型微调数据【SFT】、人类反馈打分数据【RM】

英文:wiki+book+Pile,包包脸datasets

中文:【【微信】】

英文:

  • InstructionWild【104K双语中英文数据集】

中文:

  • InstructionWild【104K双语中英文数据集】
  • 百科、知道问答、对联、古文、古诗词、微博新闻评论,链接: 提取码: ssng

英文:Dahoas/rm-static和Anthropic/hh-rlhf

中文:百科、知道问答、对联、古文、古诗词、微博新闻评论,链接: 提取码: ssng

  • 预训练模型:GLM
  • 奖励模型:ColossalAI和RLHF等都行
  • 强化学习PPO:trl,加速训练用trlx
  • 数据:结合业务需求
  • 预训练模型:llama
  • 奖励模型:ColossalAI和RLHF等都行
  • 强化学习PPO:ColossalAI或trl,加速训练用trlx
  • 数据:结合业务需求
  • 预训练模型:基于transformers或其他框架预训练
  • 奖励模型:ColossalAI和RLHF等都行
  • 强化学习PPO:ColossalAI
  • 数据:结合业务需求
  • GPT-3 + RL 全流程训练开源整理
  • 人类反馈强化学习RLHF又一个 开源项目实现Huggingface TRL
  • ChatGLM
  • summarize-from-feedback
  • PaLM: Scaling Language Modeling with Pathways
  • LLaMA论文
  • Chinchilla论文
  • 开箱即用,完整版 ChatGPT 克隆方案,开源了!
  • 300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生,暴杀「草泥马」