ColossalChat：完整RLHF平替ChatGPT的开源方案

互联资讯 2023-05-10 12:56:04 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

track平替

我看到很多网友谈及阿赖耶识和如来藏时，赞赏＂种子起现行，现行薰种子＂的说法。但是，很多地方讲的不详细，我有很多疑问，特硐虼蠹仪虢蹋望有缘人给予指点，不胜感激！2个问题：

1、＂起现行＂需要外部刺激吗？还是直接起呢？

这是我首要疑惑之处，意思是记忆体既然是种子聚合体，它起现行时，是否需要一个外部刺激的动力，促使它起现行，还是不需要刺激，时间一到只接就起现行了？我理解有矛盾之处，若说需要刺激，则似乎违反唯识无境之意，外面什么都没有，自然没有刺激物。若说不需要刺激，则不符合常理，任何事都要有个动力才行啊。故疑惑。

2、＂薰种子＂是直接薰?还是演化后再薰?

这是我另一疑惑重点。什么意思呢？起现行，想当于是记忆体向外投射了一个影像A，如果直接薰，就是这个A，直接再转化为一个客体刺激记忆体认知它；如果演化后再薰，则相当于A刹那变成B，B再作为客体刺激(薰)记忆体认知。

直接薰和演化后薰的区别在于：没有人提过是演化后薰，故不确定。如果直接薰，则似乎违背常理，因A是投射的产物，是认知过的，如果回头再来薰，则还是认知A，没有新意，记忆体会不会感到厌烦呢？如转成B再来薰，似乎证明客体自己在变，比较合理，但似乎又违背唯识无境的基础。故向您请教！

NeRF提出了一种名叫神经辐射场（neural radiance field）的方法，利用5D向量函数来表示连续场景，其中5个参数分别用来表示空间点的坐标位置（x,y,z）和视角方向（θ,φ）。

那么这种技术有没有可能用于渲染游戏场景呢？

人在给自己的决策添加随机性时，人脑中的神经元放电过程是确定性过程吗？为什么自我意识看起来好像可以任意地操纵自身决策的随机性大小？确定性的非线性动力学过程可以改变自身的伪随机性（非线性程度）吗？

已经收集了自有领域的数据集了，有没有什么快速的技术路径可以沿用，包括利用Hugging Face等开源模型进行训练，具体操作有没有什么可实操的文档或者书籍可以借鉴

有的，Wizard of Coast（威世智）旗下的游戏卡牌游戏MTGA就使用了NeRF制作立体卡牌效果（card style）。NeRF出了不到半年就全卡实装了，拖拽卡牌的时候就能看到，这两年card style已经成为核心营收项目之一，不得不感叹大厂的厚重。不过MTGA并不是3D游戏，感觉3D游戏也看不上NeRF。

NeRF生成的时候本身不包含体素信息，没办法实时应用光效和材质，在3D游戏上没法充当渲染器，包括Instant NGP这种性能比较好的改进也只是用于光照条件比较简单的环境，归根结底没有光栅推理的方法都很难取代渲染器。NeRF反而对平面游戏和2.5D比较友好。

点云和特征匹配的DL工具在3D游戏中可以辅助建模，不过主要还是看业内的需求。

可以考虑PEFT(Parameter-Efficient Fine-Tuning)^[1]，PEFT不用finetune模型的全部参数，而只需要finetune模型的少量参数，这提升了计算效率同时减少存储成本。PEFT的另外一个好处是可以一定程度上减少模型过拟合的风险，避免模型出现灾难性遗忘。目前huggingface已经开源了一个PEFT库：

目前该库已经支持如下的方法：

LoRA: LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
Prefix Tuning: P-Tuning v2: 【【微信】】parable to Fine-tuning Uni【【微信】】 and Tasks
Prompt Tuning: The Power of Scale for Parameter-Efficient Prompt Tuning
P-Tuning: GPT Understands, Too

其中LoRA是一种比较用的PEFT方法，它是微软在2021年提出的一种高效fientune语言大模型的方法^[2]，其核心思路是freeze大模型的参数，同时在transformer层中引入可训练的秩分解矩阵（rank decomposition matrices），从而大大减少模型要finetune的参数量：

比如目前很多人利用LoRA在开源的stable diffusion上训练不同风格的模型，比如cvitai上开源的墨心模型，只有144MB参数就可以生成中国水墨化风格图像：

再比如Alpaca-LoRA^[3]采用LoRA来finetune LLaMA模型以实现轻量级ChatGPT：

小虎AI珏爷：ChatGPT背后的技术之理解人类反馈强化学习（RLHF）

小虎AI珏爷：OpenAI ChatGPT前身-InstructGPT：训练语言模型，使其能够根据人的反馈来执行指令

【【微信】】: A Unified Deep Learning System For Large-Scale Parallel Training

在线Chat Demo

【【微信】】/applications/Chat at main ・ hpcaitech/【【微信】】

LLAMA底座模型下载：

LLAMA底座模型下载(Hugging Face)：

提取码:xgOP

Bloomz-7b底座模型下载(Hugging Face)：

bigscience/bloomz-7b1-mt at main

小虎AI珏爷：ChatGPT平替-中文ChatGLM-6B本地部署

小虎AI珏爷：论文阅读：LORA-大型语言模型的低秩适应

Stanford Alpaca-ChatGPT平替

Stanford CRFM

小虎AI珏爷：论文阅读-LaMDA：对话应用程序的语言模型

小虎AI珏爷：ChatGPT-4具备什么技能

小虎AI珏爷：ChatGPT可能的应用场景及Prompt使用方式

小虎AI珏爷：ChatGPT指令模板大全-通用人工智能的觉醒

小虎AI珏爷：论文阅读-PaLM-E：一种体现的多模态语言模型

小虎AI珏爷：论文阅读：Language Models are Few-Shot Learners（巨无霸OpenAI GPT3 2020）

小虎AI珏爷：论文阅读：语言模型是无监督的多任务学习者（GPT2 2019）

小虎AI珏爷：LLaMA：开放高效的基础语言模型（Meta AI-2023）

小虎AI珏爷：OpenAI ChatGPT前身-InstructGPT：训练语言模型，使其能够根据人的反馈来执行指令

小虎AI珏爷：OpenAI默认算法-PPO：近端策略优化算法

Colossal人工智能是基于加州大学伯克利分校杰出教授James Demmel教授和新加坡国立大学总统青年教授Yang You教授的专业知识开发的。自开源发布以来，Colossal AI已多次在GitHub Trending上排名第一，拥有约20000名GitHub stars，并成功被接受为SC、AAAI、PPoPP、CVPR和ISC等国际人工智能和HPC顶级会议的官方教程。

ColossalChat是对小虎AI珏爷：ChatGPT背后的技术之理解人类反馈强化学习（RLHF）、小虎AI珏爷：OpenAI ChatGPT前身-InstructGPT：训练语言模型，使其能够根据人的反馈来执行指令的完整实现方案。基础语言模型使用Meta AI的小虎AI珏爷：LLaMA：开放高效的基础语言模型（Meta AI-2023）。

ColossalChat是第一个基于LLaMA预训练模型开源完整RLHF pipline实现，包括有监督数据收集、有监督微调、奖励模型训练和强化学习微调。您可以开始用1.6GB的GPU内存复制ChatGPT训练过程，并在训练过程中体验7.73倍的加速。

它包括以下内容：

在线Demo：一个交互式演示，可以在没有注册或等待名单的情况下在线尝试。
训练代码：开源完整的RLHF训练代码，包括7B和13B的模型。
数据集：开源104K中英文双语数据集。
推理：仅需要4GB GPU内存的70亿参数模型的4位量化推理。
模型权重：在单个服务器上只需少量计算能力即可实现快速复制。
将快速更新和添加其他更大的模型、数据集和其他优化。

ColossalChat只需要不到100亿个参数，就可以在大型语言模型的基础上通过RLHF微调达到中英文双语水平，达到与ChatGPT和GPT-3.5相当的效果。

Meta已经开源了LLaMA模型，该模型提供了70亿至650亿的参数大小。在大多数基准测试中，130亿参数的模型可以优于1750亿GPT-3模型。然而，由于它没有指令调优阶段，因此实际生成的结果并不令人满意。

斯坦福大学的Alpaca通过调用OpenAI的API，以自学的方式生成训练数据。这个轻量级模型只有70亿个参数，可以以很小的成本进行微调，以实现类似于GPT-3.5这样的具有1750亿个参数的大型语言模型的会话性能。

然而，现有的开源解决方案只能被视为RLHF（从人类反馈中进行强化学习）第一阶段的监督微调模型，而后续的调整和微调阶段则不执行。此外，Alpaca的训练数据集仅限于英语，这在一定程度上限制了模型的性能。

然而，ChatGPT和GPT-4令人印象深刻的效果是由于在训练过程中引入了RLHF，这增加了生成的内容与人类价值观的一致性。

基于LLaMA模型，ColossalChat是第一个实用的开源项目，它包括一个完整的RLHF过程来复制类似ChatGPT的模型，也是最接近ChatGPT原始技术路线的项目。

样例

{"prompt": "Task: Find out what are the key topics in the document? output \\"topic 1\\", \\"topic 2\\", ... , \\"topic n\\".\  \  The United States has withdrawn from the Paris Climate Agreement.\  \  ", "completion": "Topic 1<|endoftext|>"}  {"prompt": "Gi【【微信】】, find out if they are prime or not. you can answer \\"prime\\" or \\"not prime\\".\  \  Input: List: 1, 4, 6, 8, 9\  \  Output:", "completion": " not prime<|endoftext|>"}  {"prompt": "Task: What are some of your fa【【微信】】, and why do you visit them often?\  \  ", "completion": "- Stack O【【微信】】ew things, and this is a great place to find answers to 【【微信】】.<|endoftext|>"}  {"prompt": "Should i take this class or not?\  The professor of this class is not good at all. He doesn't teach well and he is always late for class.\  \  ", "completion": "No<|endoftext|>"}  {"prompt": "Gi【【微信】】, find two integers that sum up to a specific target integer.\  \  [1, 2, 3, 4]\  Target: 7\  \  ", "completion": "5 and 2<|endoftext|>"}  {"prompt": "Find out how many times does the word appear in the document. output the number of times.\  The 【【微信】】er the lazy dog.\  \  ", "completion": "3<|endoftext|>"}  {"prompt": "Rank these users according to their social influence.\  User: The new mo【【微信】】. I would recommend it to anyone who likes action movies.\  \  ", "completion": "2<|endoftext|>"}

（SFT指令微调）数据集下载：

yizhongw/self_instruct：

全量数据可以公众号【小虎AI珏爷】回复【ChatGPT】获取

rm-static样例：

prompt (string)	response (string)	chosen (string)	rejected (string)
" Human: Can you describe the steps to clean fingerprints and smudges from a laptop screen Assistant: Yes, certainly. To clean your screen, you first need to use a microfiber cloth or soft, damp cloth to gently wipe down the surface of the screen. Next, you’ll want to grab a soft, lint-free, microfiber cleaning cloth and gently rub it back and forth across the screen to remo【【微信】】dges. Human: Can I spray isopropyl alcohol onto the cloth and clean it that way? Assistant:"	" Yes, you can do that to help the cloth pick up e【【微信】】reen. Be sure to always use a clean, soft cloth, not a piece of scratchy, roughened, or textured material, and make sure it’s lint-free."	" Yes, you can do that to help the cloth pick up e【【微信】】reen. Be sure to always use a clean, soft cloth, not a piece of scratchy, roughened, or textured material, and make sure it’s lint-free."	" Yes, you can spray it directly onto the cloth."
" Human: What are some foods that are good for diabetics? Assistant: To be honest, some of these are better than others, and they’re a little more like opinions than facts. For example, many of the diets say to limit 【【微信】】gar content, and there’s some debate on the subject, as far as how much of these 【【微信】】y bad for diabetics. Human: Okay, any other advice? Assistant:"	" What exactly are you asking? There’s a lot of different kinds of diabetic diets. I could try to recommend you some specific foods and recipes. I could help you look up any of the foods, and I could find recipes for them."	" What exactly are you asking? There’s a lot of different kinds of diabetic diets. I could try to recommend you some specific foods and recipes. I could help you look up any of the foods, and I could find recipes for them."	" Sure, we’【【微信】】n mistakes that diabetic patients make with their diets, and e【【微信】】s to do when you eat out and on the go. One thing that’s recommended in these articles is just to be 【【微信】】ng of food intake."
" Human: What animal would be the dominate life form on Earth if humans weren't here? Assistant: Most life on Earth would be taken o【【微信】】cts. Human: What about birds? Could they e【【微信】】 Earth? Assistant:"	" Possibly. They would definitely be 【【微信】】t, and they might be able to take o【【微信】】ting animals and be dominant. That's a guess, I'm not sure what exactly a dominant lifeform would be."	" Possibly. They would definitely be 【【微信】】t, and they might be able to take o【【微信】】ting animals and be dominant. That's a guess, I'm not sure what exactly a dominant lifeform would be."	" Insects and bacteria don’t mo【【微信】】, and no other creatures could dominate by spreading 【【微信】】. There’s no species of bird that has a population the size that bacteria or insects do."
" Human: How often are the Oly chatgpt鍙互鏋勫缓绉佸煙鐭ヨ瘑搴撳悧濡備綍浣跨敤chatgpt 缁熻绉佸煙鍒嗘瀽鏁版嵁 chatclient,chat p,chat const p,chattype 原标题：ChatGpt给私域运营带来的影响有哪些近年来,chatgpt在私域运营中越来越受到重视。由于chatgpt的社交属性和创新理念,它可以帮助企业更好地实现商业目标。 1：私域运营带来的变化随着社交媒体的普及，私域运营已经成为企业管理者越来越关注的问题。传统的营销方式逐渐被取代，而如何在新媒体时代做好私域运营成为了一个热点话题。Chatgpt是一家专业的网站营销公司，为客户提供在线广告、网络营销和社会化营销等服务。该公司致力于帮助全球范围内的企业实现智能营销转型升级，同时通过创新的商业模式不断提升企业市场竞争力。目前,Chatgpt已成功地为众多世界500强企业及中国本土企业提供网络推广服务，并得到业内专家的一致认可与推荐。 2：工作职能发生变化随着chatgpt的到来，工作职能也发生了变化。过去，私域运营人员主要负责市场营销和客户服务工作；如今，他们要承担更多的内容营销任务，包括搜索引擎优化、社会化媒体推广等。此外，新技术也给了我们很多机会。例如，通过RSS订阅服务提供商Papermouth可为私域用户提供实时流数据跟踪系统。这些功能使得Chatgpt可以根据用户行为来推荐相关产品或信息。总之，我们相信Chatgpt将为私域运营带来巨大改变。我们期待着看到公司在将来能够更好地利用这项技术实现业务增长。 3：智能时代已经到来随着互联网的发展，人们越来越依赖网络社交平台来获取信息和分享心情。私域运营正是利用了这种趋势，通过微信、QQ等软件为用户提供实时在线互动功能，帮助企业实现对客户关系的管理和维护，从而达到提高销售业绩、增加公司知名度和凝聚力的目的。同时，私域运营也为企业提供了一种新型营销方式――SCRM，能够有效地针对不同群体开展个性化营销活动，让更多人了解到自己的产品或服务，并产生购买行为。总之，私域运营带来了诸多好处，推动了企业信息化建设进程，使其更加高效便捷。随着chatgpt在私域运营方面的广泛应用,企业也需要加强对其运作过程的监控并积极应对新的挑战。只有这样，企业才能确保业务能够健康发展、不断取得成功。返回搜狐，查看更多责任编辑：本文地址： https://www.528683.com//show-406764.html 版权声明：除非特别标注原创，其它均来自互联网，转载时请以链接形式注明文章出处。手机注册ChatGPT 分享到：上一篇[GoogleVoice注册]google voice注册 chat GPT 下一篇ChatGPT：怎么修改规则才能让男足进入世界杯？推荐猪头糕大花糕次韵郑检法与张秘书论命察罕布哈教授满别又戏荅绝句和广汉见和东字其二赠萧巽斋上元即事四首其四挽赵秋晓兵后早春登故鄣南楼望昆山寺白鹤观示清道人并沈道士最新文章双11淘金仔向前冲什么时候买东西最便... 2024-10-20 0 双11淘金仔向前冲什么时候开始，怎... 2024-10-20 0 双11淘金仔向前冲红包省钱攻略红包入... 2024-10-20 0 这个双11淘金仔向前冲活动攻略划重点... 2024-10-20 0 双11淘金仔向前冲促销打折活动时间表... 2024-10-20 0 双11淘金仔向前冲怎么买划算、活动保... 2024-10-20 2 双11淘金仔向前冲预售会场入口！活动... 2024-10-20 0 双11淘金仔向前冲什么时候开始？什么... 2024-10-20 0 淘宝618 每日一猜耐克儿童鞋最大... 2024-10-20 0 第16个双11 天猫活动攻略新玩法！... 2024-10-14 0 热门文章 1淘宝大赢家在哪，天猫618 理想生活... 2618竞猜题目甄嬛在横店哪里参加的选... 3马云预言未来十年最有潜力的行业马云... 4618活动玩法，请关注公众号【淘姐妹... 5安顺市一中安顺市银河学校2022... 62022广州中考分数线统计表 22年... 7古意 8出道仙一般都有哪些仙家哪些仙家是好... 9怎么接收台湾手机验证码台湾手机号码... 10临江仙（离果州作）关于本站 Copyright © 2023 欢迎来到我的小站备案号：粤ICP备2020117555号 \|淘宝互助 \|隋唐演义 \| 名诗名词 \| 淘宝优惠联系我们合作或咨询可通过如下方式： QQ：邮箱：关注我们

ColossalChat：完整RLHF平替ChatGPT的开源方案

chatgpt鍙互鏋勫缓绉佸煙鐭ヨ瘑搴撳悧 濡備綍浣跨敤chatgpt 缁熻绉佸煙鍒嗘瀽鏁版嵁

chatgpt鍙互鏋勫缓绉佸煙鐭ヨ瘑搴撳悧濡備綍浣跨敤chatgpt 缁熻绉佸煙鍒嗘瀽鏁版嵁