【ChatGLM-6B入门-一】清华大学开源中文版ChatGLM-6B模型学习与实战
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
作者简介
作者:杨夕
推荐系统 百面百搭地址:
NLP 百面百搭地址:
个人笔记:
NLP && 推荐学习群【如果人数满了,加微信 【【微信】】】
由清华技术成果转化的公司智谱 AI 宣布开源了 GLM 系列模型的新成员 ―― 中英双语对话模型ChatGLM-6B,支持在单张消费级显卡上进行推理使用。这是继此前开源 GLM-130B 千亿基座模型之后,智谱 AI 再次推出大模型方向的研究成果。
此外,基于千亿基座的 ChatGLM 线上模型目前也在 chatglm.cn 进行邀请制内测,用户需要使用邀请码进行注册,也可以填写基本信息申请内测。
根据介绍,ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。
ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。
ChatGLM-6B 具备以下特点:
- 充分的中英双语预训练:ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。
- 优化的模型架构和大小:吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统 FFN 结构。6B(62 亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。
- 较低的部署门槛:FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。
- 更长的序列长度:相比 GLM-10B(序列长度 1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。
- 人类意图对齐训练:使用了监督微调(Super【【微信】】)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback)等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。
基于以上特点,ChatGLM-6B 在一定条件下具备较好的对话与问答能力。
量化等级 | 最低 GPU 显存 |
---|---|
FP16(无量化) | 13 GB |
INT8 | 10 GB |
INT4 | 6 GB |
ChatGLM-6B可以实现的能力这是一个对话机器人,所以基本的问答系统都是支持的。官方提供了几个使用实例:
- 自我认知
- 提纲写作
- 文案写作
- 邮件助手
- 信息抽取
- 角色扮演
- 评论比较
- 旅游向导
使用 pip 安装依赖:pip install -r re【【微信】】.txt
,其中 transformers
库版本推荐为 4.26.1
,但理论上不低于 4.23.1
即可。
可以通过如下代码调用 ChatGLM-6B 模型来生成对话:
# 导包 from transformers import Au【【微信】】, AutoModel # 加载模型 【【微信】】 = Au【【微信】】.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True) model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda() # 测试 response, history = model.chat(【【微信】】, "你好", history=[]) print(response) response, history = model.chat(【【微信】】, "晚上睡不着应该怎么办", history=history) print(response) >>> 晚上睡不着可能会让人感到焦虑和不安。以下是一些可能有用的建议,帮助在晚上入睡: 1. 创建一个舒适的睡眠环境:确保房间安静、黑暗、凉爽和舒适。也可以试着使用放松的音乐或白噪音来降低压力和焦虑。 2. 建立睡前例行程序:在睡前半小时做一些放松的事情,如泡澡、阅读、听轻柔的音乐等,有助于放松身心,进入睡眠状态。 3. 避免在睡前吃大量食物或饮料:这些食物或饮料可能会导致胃部不适或刺激,从而影响睡眠。 4. 尝试规律的睡眠时间表:尽量在同一时间上床,以帮助身体适应一个固定的睡眠时间表,更容易入睡。 5. 减少咖啡因和酒精的摄入:咖啡因和酒精都可能影响睡眠,所以尽可能避免在睡前摄入这些物质。 6. 进行适量的身体活动:适度的身体活动可以帮助放松身心,但避免在睡前进行过于激烈的运动。 如果以上建议无法帮助入睡,建议咨询医生或专业人士,了解是否有其他潜在的健康问题,需要采取相应的治疗措施。
文学创作
提问:龟兔赛跑的结局是什么?如果要续写这个故事,可以有哪些角度?
- 「文心一言」的回答:
- ChatGPT 的回答:
- ChatGLM-6B 的回答:
从结果可以看出,「文心一言」和 ChatGPT 和 ChatGLM-6B都进行了正确回答,不同之处在于「文心一言」对故事整体概述了一遍,解释了乌龟赢得比赛的原因。在故事的续写上,二者给出的角度也不分伯仲,而「文心一言」更是对每个续写角度都给出了相应的寓意解释。
整体而言,在这个问题中「文心一言」和 ChatGPT 和 ChatGLM-6B 不相上下,「文心一言」以更全面的回答略胜一筹。
中文理解
提问:京剧中的生、 旦 、净、丑分别指什么?
- 「文心一言」的回答:
- ChatGPT 的回答:
- ChatGLM-6B 的回答:
百度称「文心一言」具备中文领域最先进的自然语言处理能力,从它对京剧生、 旦 、净、丑的理解来看,水平还不错,还多回答了一个题目中没问的“末”。ChatGPT 的回答乍看之下也挺好,但细看之后,净行居然要“跳高、走钢丝”?
ChatGLM-6B 能够准确回答问题,并通过举例说明的方式,帮助用户理解每个角色的特点。
对于中国文化特有的词汇,相较于 ChatGPT,ChatGLM-6B 和「文心一言」在这方面要更准确一些。
附加题:编写代码
提问:请写一个使用逻辑回归模型判断用户更喜欢文心一言还是chatGPT的训练代码
- 「文心一言」的回答:
- ChatGPT 的回答:
- ChatGLM-6B的回答:
对于这个编码问题,我们邀请了专业程序员对二者生成的代码进行分析:
1. ChatGPT 准确生成了逻辑回归模型模版代码,解决的是目标问题。2. 「文心一言」虽然生成了代码,但是生成的是图深度优先搜索(【【淘密令】】)代码,并不是目标问题解法代码。
3. ChatGLM-6B 生成的代码直接语法都存在问题。
正如百度在发布会上所说,「文心一言」和 ChatGLM-6B 的代码能力还需加强,而 ChatGPT 以擅长编码“出圈”果然不无道理。
由于ChatGLM-6B的小规模,其能力仍然有许多局限性。以下是我们目前发现的一些问题:
- 模型容量较小:6B的小容量,决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B可能会生成不正确的信息;它也不擅长逻辑类问题(如数学、编程)的解答。
- 产生有害说明或有偏见的内容:ChatGLM-6B只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。(内容可能具有冒犯性,此处不展示)
- 英文能力不足:ChatGLM-6B 训练时使用的指示/回答大部分都是中文的,仅有极小一部分英文内容。因此,如果输入英文指示,回复的质量远不如中文,甚至与中文指示下的内容矛盾,并且出现中英夹杂的情况。
- 易被误导,对话能力较弱:ChatGLM-6B 对话能力还比较弱,而且 “自我认知” 存在问题,并很容易被误导并产生错误的言论。例如当前版本的模型在被误导的情况下,会在自我认知上发生偏差。
不过 GLM 团队也坦言,整体来说 ChatGLM 距离国际顶尖大模型研究和产品(比如 OpenAI 的 ChatGPT 及下一代 GPT 模型)还存在一定的差距。该团队表示,将持续研发并开源更新版本的 ChatGLM 和相关模型。“欢迎大家下载 ChatGLM-6B,基于它进行研究和(非商用)应用开发。GLM 团队希望能和开源社区研究者和开发者一起,推动大模型研究和应用在中国的发展。”
ChatGLM-6B
清华系公司智谱AI开源ChatGLM-6B模型,千亿基座对话模型开启内测
智谱 AI 开源 ChatGLM-6B 中英对话模型,千亿基座ChatGLM内测中
清华大学开源中文版ChatGPT模型――ChatGLM-6B发布
文心一言 【【微信】】!相同 10 问,结果出乎意料
?文章数:189 ?涉及领域: NLP,推荐系统,ChatGPT大模型系列,面试笔记和经验,Ai画图,OCR 等
NLP论文学习笔记 地址:
推荐系统论文学习笔记 地址:
GCN论文学习笔记 地址 :
NLP 百面百搭地址:
推荐系统 百面百搭地址:
推广搜 *库地址:
【如果人数满了,加微信 【【微信】】(避免传销加入,对二维码做了打码,感兴趣可以加微信申请入群)】
用chatgpt如何写社科论文 chatgpt 社科项目
如何使用chatgpt,用chatGPT写论文查重率高吗,用chatGPT润色论文,用chatGPT降重在2022年11月末,一家位于美国旧金山,名为“OpenAI”的人工智能研究机构在没有大肆宣传的情况下公布了一款名为“ChatGPT”的免费应用。从界面上来看,这个在网页上运行的人工智能对话机器人程序略显寒酸,用户在一个对话框里输入问题,随后网页上会逐字逐句打出它的回答。它的反应速度看上去并不算太快。
经过一段不算长的平静期之后,ChatGPT忽然在全世界范围内引发出一种爆发性的效应。兔年春节尚未结束,在中文网络上关于ChatGPT的讨论就开始愈发火爆。人们对它不乏调侃――这个聊天机器人往往会对一个难度不大的问题给出错误答案,一本正经地说瞎话;在调侃之外更多的则是惊叹――ChatGPT针对各种问题所进行回答的语言基本上已经看不出机器生成的生硬,而是标准的书面化,甚至是口语化的日常语言;其针对一些问题所产生的答案更是显得逻辑清晰,结构完整;甚至对于创作诗歌、小故事等要求往往也完成得远超人们的预期。
网友和ChatGPT讨论27是否是质数
这款展示出超强“智能”的聊天机器人迅速在全世界范围内成为一款“现象级”的应用。瑞银集团的一份研究报告显示,在ChatGPT推出两个月之后,它在2023年1月末的月活用户就已经突破了1亿,成为历史上用户增长速度最快的消费级应用程序。相比之下,其他几款也曾经风靡全球的应用,例如TikTok达到1亿用户用了9个月时间,Instagram则花了2年半时间。可以说,ChatGPT在短时间内风靡全球,即便对于它的开发者们来说也是一个意外。发布这个应用本来是被看作一次“研究预览”(research preview)。“我们并不想过分宣传,说它是一个重大的基础性进步。”ChatGPT的开发者之一利亚姆・费德斯(Liam Fedus)在接受媒体采访时这样说。
对于大多数人工智能领域的研究者来说,ChatGPT的表现确实堪称优异,而人们对其表现出的极高热情和好奇更是出乎预料。这种出乎意料的全球性热潮也必定会对整个产业造成一系列的连锁效应。这款对话机器人所应用的并不算是最新技术,而是基于2020年构建的一个人工智能模型“GPT-3”。开发者们在此基础上再进行细致调整,并且加入一些对话数据对其进行“训练”,随之诞生了“ChatGPT-3.5”(3.5是其版本号)。
《银翼杀手2049》剧照
对于大众来说,人们已经开始将ChatGPT的出现与之前在人工智能领域的几个标志性事件相提并论:1997年5月,IBM公司开发的“深蓝”(Deep Blue)国际象棋程序打败了当时的国际象棋世界冠军卡斯帕罗夫;2016年3月,由DeepMind公司开发的围棋人工智能程序AlphaGo打败了当时的围棋世界冠军李世石;而几年之后出现的ChatGPT又将人们对于人工智能的关注度提升到了风口浪尖。也有人将这款聊天机器人的出现与iPhone当年的横空出世相提并论――这绝不仅仅是一款产品而已,而是改变了全世界使用互联网的方式,标志着一个新时代的来临。
大多数对于人工智能,尤其是“自然语言处理”(Natural Language Processing)技术并不了解的普通人在使用过ChatGPT之后,往往会产生出三个问题:这款聊天机器人究竟是如何做到语言流畅、逻辑清晰甚至还展现出了一定的创作能力?通过类似的技术,人工智能在未来能够达到怎样的高度,还能完成怎样的任务?它的出现对人类社会将造成怎样的转变,很多工作(尤其是自己目前所从事的工作)会不会很快被人工智能所取代?
第一波热潮尚未过去,2023年3月12日,更新版本的“ChatGPT-4”出现。而微软公司也很快召开发布会,宣布使用与ChatGPT类似的技术,与其办公软件相结合,推出“Microsoft 365 Copilot”――目前还很难判断它将成为办公室文员的得力助手还是天敌。从发布会上所展示的性能来看,实际上大多数办公室文员的工作如撰写标准文档、制表甚至是对文档进行总结归纳等任务,都可以由这款办公软件自动完成。除此之外,一些基于类似技术的人工智能绘图应用也开始让人们乐于尝试。虽然与文字应用相比,目前看来人工智能的绘图能力还有明显欠缺,但也能够不时展现出绝佳的创意。
中国公司也在迅速跟进。2023年3月16日,百度公司召开发布会,推出聊天机器人“文心一言”。这款产品很容易被看作是对标ChatGPT而推出的中国版本。对其有过使用经验的人也自然会把两款产品放在一起来比较,目前收获的评价褒贬不一。
ChatGPT对于人类社会的影响可谓立竿见影。已经有多个学术期刊声明不接受这款人工智能机器人作为论文的作者,也有期刊表示允许作者使用ChatGPT对论文进行整理和润色。更有大学老师略带调侃地评价,现在很难判断学生交上来的论文作业是自己写的还是由ChatGPT生成,只能粗略判断:写得太工整、逻辑太清晰的作业应该是由ChatGPT完成的。
《她》剧照
在这股热潮稍微冷却一些之后,人们对于人工智能机器人的反应显得颇为复杂。有人感到恐惧,认为人类最重要的特征――进行思考和推理的能力――如今已经显得不再独特。由此便很容易联想到尼采在《查拉图斯特拉如是说》中的名言:“人之所以伟大,乃在于他是桥梁而不是目的。”有人为之欢呼,认为无论会产生出怎样的后果,一个全新的时代正在到来,人工智能在所有领域全面超越人脑只是一个时间问题,是一个“数学上的必然”(mathematical certainty);也有人认为人工智能已经完全超越了人脑,达到了所谓的“奇点”(Singularity)……
必须承认,人工智能已经不再是供人展望和畅想的未来。无论你对人工智能持有怎样的看法,怀着怎样的情绪,它已经成为现实,成为我们生活中的一部分。为了完成这组报道,本刊记者试图深入到行业内部去了解人工智能研究最前沿的信息。目前人工智能研究最有活力的前沿区域当属位于硅谷的各大科技公司。不过,无论是微软、谷歌、Meta,还是位于伦敦、已经被谷歌收购的DeepMind公司,都对于采访要求保持沉默或是直接拒绝。其中的原因其实也不难想象:在当今人工智能产业正在发生剧变的时代,各大科技公司都有太多暂时不便公开的研究项目和商业计划。
我们决定转而去探访进行人工智能研究的学术中心。“神经网络三剑客”中的两位:杰弗里・辛顿(Geoffrey Hinton)和约书亚・本吉奥(YoshuaBengio),分别在加拿大的多伦多和蒙特利尔建立了向量研究所(【【微信】】)和蒙特利尔学习算法研究所(MILA)。这两家学术研究机构会聚了大量人工智能领域,尤其是神经网络方面的专家,堪称世界人工智能研究的两大中心。我们对这两家机构做了实地参观,并对这里的多位学者进行了采访。
除此之外,本刊记者还对国内的科技公司以及人工智能领域的相关人士进行了采访。以色列历史学家、《人类简史》作者尤瓦尔・赫拉利也接受了本刊独家专访,谈论了人工智能所需要的全新的道德规则。在这次对学术界和工业界不同研究人员的采访中,我们感触最深的地方就在于,虽然大家都在朝着同一个方向努力,也都相信人工智能的发展会越来越好,但是对于一些根本性问题的看法却往往大相径庭。未来正是这样,在种种不确定中开始逐渐显现。
自己的工作有没有受到威胁,究竟什么工作最可能被人工智能所取代?正如我们的采访对象,英属哥伦比亚大学的克鲁恩教授所说,“颇有讽刺意味的是,人工智能来自数字世界,如果你现在的工作需要写很多的文字,发很多的邮件,制作很多的PPT,每天花很多时间使用电脑……那么你的工作很可能是最先会被人工智能所取代的。而对于人工智能来说,更难得工作在于如何系鞋带,如何拧螺丝,如何打扫房间……可以说,相比于清洁工的工作,律师的工作会很快就被人工智能所取代。”
说到底,如果你的工作需要每天花费大量时间用于操作电脑,而且大多属于重复性,不需要太多的创造力,那么你的工作就非常可能最先被人工智能所替代。而目前看来,通用型人工智能,尤其是人工智能机器人还没有成为现实,因此大多数的体力劳动仍然无法被替代。
《人工智能》剧照
人工智能和人类究竟该是怎样的关系?很多人把这理解为一种竞争,也有人希望人工智能可以成为人类的好帮手。在医疗保健、法律、教育等行业,目前看来人工智能还不能替代人类的工作,却可能成为人类的好帮手。
长远看来,人工智能更可能成为人类的一个伴侣。在经过了数百万年的进化之后,人类拥有了复杂的大脑,也成为了地球孤独的主人。人类大脑的构造堪称宇宙中最为复杂的机器,其中神经元的数量堪比星系中恒星的数量。如今,人类正在利用这个无与伦比的大脑,试图建造一个能够与自己进行平等交流,甚至可能超越自己的机器。或许人工智能最重要的意义,就在于让人类感觉在这个空荡荡的宇宙中不再孤独。
来源:三联生活周刊