深度解析mit研究者 llms赛区分析
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
首发:AINLPer微信公众号(获取分享干货!!)编辑: ShuYini校稿: ShuYini时间: 2023-3-31
前段时间,清华公布了中英双语对话模型ChatGLM-6B,具有60亿的参数,初具问答和对话功能。最!最!最重要的是它能够支持私有化部署,大部分实验室的服务器基本上都能跑起来。因为条件特殊,实验室网络不通,那么如何进行离线部署呢?经过一上午的折腾终于搞定了,总结了这么一个部署文档供大家讨论学习(其实,比在线部署还快哟~)。除去下载模型以及依赖包的时间,部署十分钟搞定!!让我们冲~~
本着授人以鱼不如授人以渔的想法,比较详细的介绍了chatglm-6B相关依赖资源的获取方式;「如果怕麻烦,也可以直接拉到文章最后直接获取chatglm-6B所有相关依赖资源」。
「部署环境」:CUDA 【【微信】】.0,机器内存32G以上或者机器8G内存+8G显卡内存。
那么,正式开始吧~~
「方法一」 直接拉到文章最后(获取方式放在最后)。
「方法二」 因为Miniconda自带python,所以要在官网下载python版本为3.10的Miniconda版本。下载地址为:,具体截图如下。(如果不想自己麻烦,我也已经把它放到云盘里面了)。
将Miniconda下载安装包放到你要放的目录,这里我放在:/home/work/miniconda 中,然后执行sh Miniconda3-latest-Linux-x86_64.sh 如下图所示:
执行完之后按照提示进行回车(enter)就好了,注意:最后选择“yes”,这样每次启动,它都会自动给你切换到conda的base环境中。
miniconda支持创建多个虚拟环境,用来支撑不同版本(python)版本的代码,这里就为chatglm-6b创建一个单独的python虚拟机环境,名字叫:chatglm,后面会在该环境中安装跑chatglm-6b模型的所有依赖。下面是命令及截图:
conda create -n chatglm --clone base (注:因为是离线安装这里选择clone的方式创建,直接创建会报错) conda env list (获取环境列表) conda acti【【微信】】 (切换chatglm环境)
chatglm-6b在centos上用到的所有依赖全都打包在packages里面了(在云盘中,获取方式放在最后),将其也放到/home/work/chatglm/packages下面,然后执行:
pip install --no-index --find-links=/home/work/chatglm/packages -r re【【微信】】.txt
「方法一」 直接拉到文章最后(获取方式放在最后)。
「方法二」 通过Hugging Face获取,连接地址:,下载所有的文件。建立chatglm_model文件夹,把下载的所有文件都塞到这里面。
不管通过以上哪种方法:将模型文件放到机器目录:/home/work/chatglm/chatglm_model下面。
方法一、直接拉到文章最后(获取方式放在最后)。
方法二、通过github开源项目获取,连接地址:,下载所有文件。建立webui文件夹,将下载的所有文件都塞到这个文件夹里面。
还是不管按照以上哪种方法获取,将webui相关文件放到机器目录:/home/work/chatglm/webui里面。
按照上面的操作,最终的文件夹目录如下:
接着,进入到webui文件夹里面,执行如下命令:
python webui.py --model-path /home/work/chatglm/chatglm_model --listen --port 8898 --precision fp16
上面参数主要是:模型路径、监听端口、以及模型工作模式;除此之外还有其它的几个参数没有用到。所有参数解释具体如下:
- --model-path 指定模型路径
- --listen 如果不加该参数,只能通过127.0.0.0本地访问。注意:在centos服务器上部署,该参数一定要加,不然没有办法通过IP加端口访问模型服务。
- --port 没有啥好说的,指定端口用的。
- --share 通过gradio进行分享,它会帮你生成一个域名连接,但是需要访问互联网。离线centos服务器部署用不到。
- --precision 精度参数有4个,分别是fp32(只用CPU,32G内存以上), fp16,(12G以上显存) int4(8G以下显存使用), int8(8G显存使用)
- --cpu 只应用CPU,无显卡的时候使用
执行完以上命令之后,等待模型加载完成,通过IP+端口就可以访问服务啦!截图如下:
GZ-->AINLPer 后台回复:chatglm6B
[1] NLP自然语言处理:ChatGPT等大语言模型(LLMs)测试数据集--整理分享
[2]附源码下载!继续分享8篇NLP论文,看如何提升大模型复杂推理能力 - 知乎 【【网址】】)
[3]NLP自然语言处理:含源码!分享7篇NLP文章,已有研究选择:利用ChatGPT实现零样本信息提取(中文)
[4]「自然语言处理(NLP)」 你必须要知道的 “ 十二个国际顶级会议 ” !
[5]2023年!自然语言处理 10 大预训练模型
[6]NLP自然语言处理:分享 8 篇NLP论文,有研究惊奇发现:大语言模型除了学习语言还学到了... ...
[7]【超详细!】一文看懂从逻辑回归(Logistic)到神经网络(NN)
[8]2023年,请不要忽略!图神经网络(GNN)这一匹黑马!
[9]NLP自然语言处理:NLP不断突破界限,2023 十篇必读的顶级NLP论文![7]颠覆传统神经网络!19个神经元驾驶一辆车!
[10]分享10篇最新NLP顶级论文,有研究竟提出:给大型语言模型(LLM)增加水印
[11]NLP自然语言处理:Language Is Not ALL You Need && 知识图谱的两种应用
[12]NLP自然语言处理:ChatGPT等大语言模型(LLMs)测试数据集--整理分
十分钟部署清华ChatGLM-6B,实测效果还可以~~(Linux版)
前段时间,清华公布了中英双语对话模型ChatGLM-6B,具有60亿的参数,初具问答和对话功能。最!最!最重要的是它能够支持私有化部署,大部分实验室的服务器基本上都能跑起来。因为条件特殊,实验室网络不通,那么如何进行离线部署呢?经过一上午的折腾终于搞定了,总结了这么一个部署文档供大家讨论学习(其实,比在线部署还快哟~)。除去下载模型以及依赖包的时间,部署十分钟搞定!!让我们冲~~
本着授人以鱼不如授人以渔的想法,比较详细的介绍了chatglm-6B相关依赖资源的获取方式;「如果怕麻烦,也可以直接拉到文章最后直接获取chatglm-6B所有相关依赖资源」。
「部署环境」:CUDA 【【微信】】.0,机器内存32G以上或者机器8G内存+8G显卡内存。
那么,正式开始吧~~
「方法一」 直接拉到文章最后(获取方式放在最后)。
「方法二」 因为Miniconda自带python,所以要在官网下载python版本为3.10的Miniconda版本。下载地址为:,具体截图如下。(如果不想自己麻烦,我也已经把它放到云盘里面了)。
将Miniconda下载安装包放到你要放的目录,这里我放在:/home/work/miniconda 中,然后执行sh Miniconda3-latest-Linux-x86_64.sh 如下图所示:
执行完之后按照提示进行回车(enter)就好了,注意:最后选择“yes”,这样每次启动,它都会自动给你切换到conda的base环境中。
miniconda支持创建多个虚拟环境,用来支撑不同版本(python)版本的代码,这里就为chatglm-6b创建一个单独的python虚拟机环境,名字叫:chatglm,后面会在该环境中安装跑chatglm-6b模型的所有依赖。下面是命令及截图:
conda create -n chatglm --clone base (注:因为是离线安装这里选择clone的方式创建,直接创建会报错) conda env list (获取环境列表) conda acti【【微信】】 (切换chatglm环境)
chatglm-6b在centos上用到的所有依赖全都打包在packages里面了(在云盘中,获取方式放在最后),将其也放到/home/work/chatglm/packages下面,然后执行:
pip install --no-index --find-links=/home/work/chatglm/packages -r re【【微信】】.txt
「方法一」 直接拉到文章最后(获取方式放在最后)。
「方法二」 通过Hugging Face获取,连接地址:,下载所有的文件。建立chatglm_model文件夹,把下载的所有文件都塞到这里面。
不管通过以上哪种方法:将模型文件放到机器目录:/home/work/chatglm/chatglm_model下面。
方法一、直接拉到文章最后(获取方式放在最后)。
方法二、通过github开源项目获取,连接地址:,下载所有文件。建立webui文件夹,将下载的所有文件都塞到这个文件夹里面。
还是不管按照以上哪种方法获取,将webui相关文件放到机器目录:/home/work/chatglm/webui里面。
按照上面的操作,最终的文件夹目录如下:
接着,进入到webui文件夹里面,执行如下命令:
python webui.py --model-path /home/work/chatglm/chatglm_model --listen --port 8898 --precision fp16
上面参数主要是:模型路径、监听端口、以及模型工作模式;除此之外还有其它的几个参数没有用到。所有参数解释具体如下:
- --model-path 指定模型路径
- --listen 如果不加该参数,只能通过127.0.0.0本地访问。注意:在centos服务器上部署,该参数一定要加,不然没有办法通过IP加端口访问模型服务。
- --port 没有啥好说的,指定端口用的。
- --share 通过gradio进行分享,它会帮你生成一个域名连接,但是需要访问互联网。离线centos服务器部署用不到。
- --precision 精度参数有4个,分别是fp32(只用CPU,32G内存以上), fp16,(12G以上显存) int4(8G以下显存使用), int8(8G显存使用)
- --cpu 只应用CPU,无显卡的时候使用
执行完以上命令之后,等待模型加载完成,通过IP+端口就可以访问服务啦!截图如下:
首发:AINLPer微信公众号(获取分享干货!!)编辑: ShuYini校稿: ShuYini时间: 2023-04-04
按照目前大型自然语言模型的发展状况,之前的很多研究方向可能会被推翻。但是要想将大型自然语言模型应用到实际场景中,总要对模型做或多或少的预训练。为此,想到了要整理关于中文的各个应用场景的所有数据集给大家分享。结果一查关于中文的数据集实在是太多了,这注定是个系列文章了,今天是第一弹!
今天给大家分享主要涉及实体识别、阅读理解、情感分类等方面的数据集,截图如下,其中md文件记录了数据集论文出处和Github代码地址,感兴趣的小伙伴可以下载源论文看一下。数据集获取方式放在最后。
「Youku文娱命名实体数据集主要是基于youku视频相关标题制作的」,该数据集包括包括了3大类(娱乐明星名、影视名、音乐名)、9小类实体类别(例如:动漫、电影、影视、综艺等),其中训练集8001条、验证集1000条、测试集1001条。该数据集由阿里巴巴达摩院和新加坡科技设计大*合提供。最近Github更新时间是2022年。
「Taobao电商命名实体数据集主要提供了电商领域的命名实体标注」,该数据集包括了4大类(商品名称、商品型号、人名、地名)、9小类实体类别(电脑、汽车、日用品等)。该数据集由阿里巴巴达摩院和新加坡科技设计大*合提供。其中,训练数据集6000条,验证数据集998条,测试数据集1000条。最近Github更新时间是2022年。
该数据集是Microsoft Research Asia 「(MSRA)推出的关于中文命名实体识别的数据集」,其中主要包括:地名、机构名和人名,采用的标签策略是BIO。其中训练数据集含有4.5万个句子,3.6万多个地名,2万多个机构名,1.7万多个人名;测试数据集大概是训练数据集的十分之一,其中含有3.4k+个句子,2.8k+地名,1.3k+组织名,1.9k+人名。目前Github最近一次更新是在2018年。
该数据集是「一个为NER标注的微博信息语料库」。相较于MSRA-NER该数据更加的具体,其主要包括:人名(具体名字和泛指名字)、地址(具体地址和泛指地址)、行政区、组织机构(特定机构和泛指名称)。该语料库主要基于2013年11月至2014年12月期间从微博上采样的1890条信息标注完成(训练数据集1350条,开发数据集270条,测试数据集270条),在数量方面相较于MSRA-NER偏少。目前Github最近一次更新时间是在2018年。
该数据集同样是「一个为NER标注数据集」,但其预料来源是人民日报,其主要包括:人名、地名和机构名。该语料库训练数据集2W+条,开发数据集2.3k+条,测试数据集4.6k+条。目前该数据集Github最近一次更新时间是在2018年。另外关于该数据集的论文出处没有找到,有知道的小伙伴可以私信给我。
「阅读和理解自然语言是是实现」高级人工智能的关键,机器阅读理解(MRC)的目的是理解所给文章的内容以及根据文章回答相关的问题。各种类型的MRC任务的数据集都已经发表,例如完形填空任务(cloze-style)、片段抽取任务(span-extraction)、自由问答任务(open-domain reading)和多项选择任务(multiple-choice)。
「【【微信】】数据集是一个用于中文机器阅读理解的片段提取任务(span-extraction)数据集」,已被计算语言学顶级国际会议EMNLP 2019录用。在这份数据集与之前的采用自动化构建问题的数据集不同。该数据集由人类专家进行注释构建,包含近20000个问题以及一个由需要对多条线索进行推理的问题组成的挑战集。目前Github最近一次更新是在2020年。
「CMRC 2019数据集是一个用于中文机器阅读理解的完形填空任务(cloze-style)数据集」,其主要任务旨在将正确的候选句子填入有空白的文章中,来评估SC-MRC任务的难度。已经被国际计算语言学会议COLING2020所收录。该数据集包含超过10万篇文章(这些文章均来自中国的叙事故事)中的10万多个填空问题,其中对于每个正确答案都制作了与其相似的错误案例,这考验了模型在上下文中的判断能力。目前Github最近一次更新是在2020年。
在强大的预训练语言模型(PLMs)的帮助下,在一些机器阅读理解(MRC)数据集上实现人类水平的性能不再具有挑战性。然而,为了进一步提高MRC系统的可靠性,特别是在实际应用中,有必要同时提供答案预测和答案解释。「ExpMRC 2022数据集主要用于评估MRC系统的文本解释性」。ExpMRC主要包含四个子集,包括SQuAD、【【微信】】、$RACE^{+}$
和 $C^{3}$
,涵盖了中英双语的片段抽取任务(span-extraction)和多项选择任务(multiple-choice)任务。并附有答案解释依据的注释。目前Github最近一次更新是在2022年。
「Delta阅读理解数据集(Delta Reading Comprehension Dataset (DRCD))属于通用领域繁体中文机器阅读理解数据集」。该数据集期望成为适用于迁移学习之标准中文阅读理解数据集。该数据集在2108篇维基文章中整理出了10014篇段落,并从段落中标注出了30000多个问题。目前Github最近一次更新是4年前。
「DuReader是一个用于机器阅读理解(MRC)和问答(QA)的大型真实中文数据集」。数据集中的所有问题都是从真实的匿名用户查询中采样的。答案的证据文件是通过百度搜索引擎从网络和百度知道上提取出来的。这些问题的答案都是人为的。DuReader 2.0版本包含超过300K个问题,140万份证据文件和660K个人工生成的答案。它可以用来训练或评估MRC模型和系统。目前Github最近一次更新是在2022年。
许多 NLP 系统(例如情感分析、主题分类、提要排名)依赖于一种高资源语言的训练数据,但不能在测试时直接用于对其他语言进行预测,几乎所有涉及跨语言数据的工业应用都会出现这个问题。XNLI数据集是一个由5000个测试和2500个开发对组成的多语言语料库集合,这些文本都附有注释,并被翻译成14种语言:法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰国语、「中文」、印地语、斯瓦希里语和乌尔都语。「该数据集主要用于评估这种跨语言句子理解方法」。Github最近的一个更新是2019年。
「ChnSentiCorp主要应用于情感分类任务」,该数据集收集大量评论,根据评论内容进行正向和反向情感标注。具体包括:7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论;4000条当当图书评论,2000正向评论,2000条负向评论;4000条京东评论,2000条正向评论,2000条负向评论。该数据集最早由中科大谭松波整理发布。Github最新的一次更新是2018年。
GZ-->AINLPer 后台回复:CNC001
[1] NLP自然语言处理:ChatGPT等大语言模型(LLMs)测试数据集--整理分享
[2]附源码下载!继续分享8篇NLP论文,看如何提升大模型复杂推理能力 - 知乎 【【网址】】)
[3]NLP自然语言处理:含源码!分享7篇NLP文章,已有研究选择:利用ChatGPT实现零样本信息提取(中文)
[4]「自然语言处理(NLP)」 你必须要知道的 “ 十二个国际顶级会议 ” !
[5]2023年!自然语言处理 10 大预训练模型
[6]NLP自然语言处理:分享 8 篇NLP论文,有研究惊奇发现:大语言模型除了学习语言还学到了... ...
[7]【超详细!】一文看懂从逻辑回归(Logistic)到神经网络(NN)
[8]2023年,请不要忽略!图神经网络(GNN)这一匹黑马!
[9]NLP自然语言处理:NLP不断突破界限,2023 十篇必读的顶级NLP论文![7]颠覆传统神经网络!19个神经元驾驶一辆车!
[10]分享10篇最新NLP顶级论文,有研究竟提出:给大型语言模型(LLM)增加水印
[11]NLP自然语言处理:Language Is Not ALL You Need && 知识图谱的两种应用
[12]NLP自然语言处理:ChatGPT等大语言模型(LLMs)测试数据集--整理分
首发:AINLPer微信公众号(获取分享干货!!)编辑: ShuYini校稿: ShuYini时间: 2023-04-06
今天给大家整理分享的7篇文章,是由谷歌、微软、麻省理工、Meta等知名国际公司机构在上个月最新公布分文章,基本上代表着最近这段时间关于大型语言模型(LLMs)的研究动态。其中主要包括:视频字幕生成,基于LLMs多模态模型、LLMs算术能力提升、LLMs上下文学习,稀疏LLMs训练等,其中「麻省理工(MIT)的提出的量化模型解释了随着模型扩展而突然出现的新功能,该量化模型有可能重塑我们对LLMs的理解」。本文所有论文获取放到最后,有需要可自行下载。
本篇文章是「Google」与「DeepMind」今年3月份公布的一篇文章。在本文中,「作者介绍了Vid2Seq,这是一种前沿的多模态、单阶段、密集事件字幕模型」,可以在有叙述的视频上进行预训练(叙述视频是一种丰富且随时可用的资源)。Vid2Seq体系结构使用特殊的时间标记增强了语言模型,使其能够同时预测同一输出序列中的事件边界和文本描述。由于这样的统一模型需要大量的训练数据,而这些数据在当前的带注释的数据集中是没有的,作者通过巧妙地重新定义转录语音的句子边界为伪事件边界,并使用转录语音句子作为伪事件标题,证明了利用未标记的叙述视频进行密集视频字幕的可能性。
由此产生的Vid2Seq模型在YT-Temporal-1B数据集上进行了预训练,在各种密集视频字幕基准测试中超过了最先进的水平,包括YouCook2、ViTT和【【微信】】字幕。此外,Vid2Seq在视频段落字幕、视频剪辑字幕和少样本设置方面展示了出色的泛化能力。随着作者将他们的代码公开访问,「Vid2Seq将彻底改变视频字幕领域,为更先进和更高效的模型铺平道路」。
本篇文章是「Google」在今年3月份公布的一篇文章,它改变语言模型只是针对文本处理的固有想法。而是将语言模型应用到实际应用程序中,例如机器人操作等,从而提出了PaLM-E多模态模型,「该模型将来自现实世界的连续传感器数据(如视觉和状态估计输入)直接纳入语言模型,在文字和感知之间建立联系」。将这些编码端到端与预训练的大型语言模型一起训练,作者证明了他们的方法在各种具体任务中的有效性,包括机器人操作规划、视觉问答和图片说明。
「PaLM-E是一种单一的大型多模态模型,它可以处理基于多种观察模式的具体推理任务」。PaLM-E不仅展示了跨语言、视觉和视觉语言领域的多样化联合训练的力量,而且还具有很强的迁移能力。最大的模型 PaLM-E-562B 拥有 5620 亿个参数,并在 OK-VQA 上取得了最先进的性能,同时在扩展时保持了其通才语言能力。
本篇是「Microsoft」在今年3月份公布的一篇文章。在本文中,「作者提出了Komos-1,这是一个突破性的多模态大型语言模型(MLLM)「,它融合了语言、多模态感知、动作和世界建模,朝着人工通用智能迈出了重要的一步。Kosmos-1能够感知一般模式,在上下文中进行少样本学习,并遵循指令进行零样本学习。该模型通过抓取网络上的多模态语料库数据(文本、图像、图像+标题等数据)从头开始进行训练。
实验结果表明,」Kosmos-1在语言理解、生成、OCR-free NLP、感知语言任务(如多模态对话)、图像说明、视觉问答等方面表现突出」。作者还表明,MLLM可以从跨模态迁移中受益,使语言和多模态域之间的知识迁移成为可能。此外,研究人员还介绍了一个基于Raven IQ测试的数据集,该数据集评估了MLLM的非语言推理能力,为模型超越语言的推理能力提供了有价值的见解。
本篇文章是「Microsof实测chatgpt 会让程序员失业吗 什么将会被chatgpt取代
被淘汰还是主动接受?|ChatGPT引发的失业潮已然到来 人工智能和ChatGPT已经日益成为了能够帮助人们处理工作的有力工具。GPT可以说是商业沟通的颠覆者,现在可能正在逐渐成为能够夺走你工作的事物。谷歌的母公司Alphabet早前已宣布裁员12000人。ChatGPT刚出现的时候,人们都对人工智能喜闻乐见,因为AI能够简化你的工作。各大公司也喜欢用AI,因为这样他们就能够利用AI节省成本。简而言之,就是少养几个员工。Buzzfeed就是这方面的先行者,BuzzFeed是一个美国的新闻聚合网站,每年有数亿美元的收入。ChatGPT发布之后,Buzzfeed创建了了引入AI技术的测试栏目【【微信】】,希望能够利用新技术赚取更多利润,而且他们还强调引入AI并不是为了取代人力。但与此同时,Buzzfeed却宣布裁员高达12%。随后因为投资者们预期AI会帮助公司降低成本,增加利润,而股价暴涨。而且Buzzfeed并不是特例,在过去的12个月当中,公司利用人工智能降低成本已经形成了一个不断增长的趋势。谷歌就率先宣布他们希望引入更多的人工智能,随后就宣布了裁员。Facebook也是一样,先是宣布裁员,然后就说要在AI的辅助下提升效率,抖音也是如此。有趣的是,现在微软还想要更进一步。微软是人工智能领域最大的投资人之一,目前正在大力投资一项新的AI功能,能够代销售人员写邮件,这样公司就可以减少销售员工了。这种投资人工智能减少公司成本的公司越来越多,对于员工的要求也就越来越高,这就提升了某些公司的效率。那么,问题在于,这是好事还是坏事呢? 加入堆金积玉交流社区:【【网址】】 堆金积玉学院:【【网址】】 ? 免责声明:堆金积玉不是财务顾问,该频道的所有视频仅用于教育目的。一切投资都存在风险,尽管可以将风险降至最低,但您的投资完全是您的个人责任,您必须进行自己的研究和调查。该频道只是在分享个人观点,不构成投资建议,并不能保证获得投资收益或损失。