关于bloomberg的文章说明 彭博指数最新消息
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
ChatGPT引爆的AI热潮也“烧到了”金融圈,彭博社重磅发布为金融界打造的大型语言模型(LLM)――BloombergGPT。
3月30日,根据彭博社发布的研究报告显示,其构建了迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM,开发了拥有500亿参数的语言模型――BloombergGPT。
该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内的各类任务,在执行金融任务上的表现远超过现有模型,在通用场景上的表现与现有模型也能一较高下。
根据彭博发布的报告来看BloombergGPT对金融行业来说无疑是一次颠覆性创新。
我们先来看一下BloombergGPT使用到的庞大数据集。
研究人员利用彭博社现有的数据,对资源进行创建、收集和整理,构建了迄今为止最大的特定领域数据集,并创建了一个拥有超过7000亿个标签的大型训练语料库:
彭博作为金融数据公司,数据分析师在公司成立的四十年间收集了大量的金融材料,拥有丰富的金融数据档案,涵盖了一系列的主题。我们将这些数据添加到公共数据集中,创建了一个拥有超过7000亿个标签的大型训练语料库。BloombergGPT的训练数据库名为FINPILE,由一系列英文金融信息组成,包括新闻、文件、新闻稿、网络爬取的金融文件以及提取到的社交媒体消息。为了提高数据质量,FINPILE数据集也使用了公共数据集,例如The Pile、C4和Wikipedia。FINPILE的训练数据集中约一半是特定领域的文本,一半是通用文本。为了提高数据质量,每个数据集都进行了去重处理。
利用庞大的数据集,并基于通用和金融业务的场景进行混合模型训练,BloombergGPT诞生了。
一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性,GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿。
根据BloombergGPT的训练结果显示,其在执行金融任务上的表现远超过现有的模型,且在通用场景上的表现与现有模型也能一较高下。
当下,通用NPL模型也可以处理金融领域的任务,那为金融圈“量身定制”的模型究竟有何意义?
彭博认为,针对特定领域模型有其不可替代性且彭博的数据来源可靠:
因彭博社的大多数应用均为金融领域,着手构建了一个针对金融领域的模型具有优势。除了构建金融领域的LLM外,本文的经验也为其他研究专用模型提供了参考。我们的方法是在特定领域和一般数据源上训练LLM,以开发在特定领域和通用领域上均表现优异的模型。此外,我们的训练数据不同于传统的网络爬取数据,网络上的数据总有重复和错误,但我们的数据来源可靠。
而更重要的是,报告指出,通用NLP模型处理金融领域任务时会面临不少挑战,首先就是无法理解财经新闻背后的市场“情绪”:
以情感分析为例,一个题为“某公司将裁员1万人”,在一般意义上表达了负面情绪,但从金融市场情绪来看,它有时可能被认为是积极的,因为这一做法可能提振投资者信心,使公司的股价上涨。
从测试来看,BloombergGPT在五项任务中有四项(Con【【微信】】,FiQA SA,FPB和Headline)表现最佳,NER(Named Entity Recognition)排名第二:
测试一:Con【【微信】】数据集是一个针对金融领域的问答数据集,包括从新闻文章中提取出的问题和答案,旨在测试模型对金融领域相关问题的理解和推理能力。测试二:FiQA SA,第二个情感分析任务,测试英语金融新闻和社交媒体标题中的情感走向。测试三:FPB,金融短语库数据集包括来自金融新闻的句子情绪分类任务。测试四:标题,数据集包括关于黄金商品领域的英文新闻标题,来判断新闻标题是否包含特定信息,例如价格上涨或价格下跌等。测试五:NER,命名实体识别任务,针对从提交给SEC的金融协议中收集金融数据,进行信用风险评估。对于Con【【微信】】来说,这个差距尤为显著,因为它需要使用对话式输入来对表格进行推理并生成答案,具有一定挑战性。
(注:GPT-NeoX为OpenAI GPT-3的一个开源替代品)
既然BloombergGPT测试中的表现如此优异,那未来可以怎么用?
除了金融数据查询、回答金融相关问题,BloombergGPT未来可以被新闻领域广泛使用:
BloombergGPT训练是以众多新闻为基础的,因此它未来将协助记者日常工作。记者需要为每个部分编写简短的标题,专门为此任务设计的模型维护成本太高,但BloombergGPT在这个方面表现优异。可以利用BloombergGPT更好的查询金融相关的知识。如,BloombergGPT能够很好地辨别公司的CEO。(虽然BloombergGPT正确地识别了CEO,GPT-NeoX出现了错误,FLAN-T5-XXL则完全未能识别)。
对于这个或将颠覆金融圈的大型语言模型,部分网友并不买账,有人认为彭博此次只发布报告,不发布模型,颇有些“雷声大雨点小”之意。
也有网友认为,彭博赶在愚人节之前发布,可能在“骗人”。
部分网友不买账,那ChatGPT怎么看?
华尔街见闻就这件事专门询问了ChatGPT,ChatGPT认为BloombergGPT是一项很有意义的技术进步:
它是专门为金融领域开发的一种语言模型,可以更好地处理金融领域的数据和任务,并且在金融领域的基准测试中表现出色。这将有助于金融从业者更好地理解和应用自然语言处理技术,促进金融科技的发展。同时,BloombergGPT还可以为其他领域的语言模型的发展提供参考和借鉴。总的来说,BloombergGPT是一个有益的技术创新。
谈谈OpenAI GPT项目的几点公众质疑 - 从机理可解释性、安全隐私保护和监管要求等方面,解读近期被业界呼吁<暂停LLM大模型发展>的论据
谈谈oppo的目标营销战略是否实现,谈谈美食,谈谈科技发展与社会生活普通话三分钟,谈谈服饰Pause Giant AI Experiments: An Open Letter - Future of Life Institute
近期一封由Musk,Bengio等产学界领袖共同倡议暂停LLM大模型发展的公开信传遍业界,全文参考如上链接;其中概括谈到了三类顾虑:
1、新的安全隐私与监管问题;2、AI的执行机理/效果/伦理的可控性;3、人类文明和民主制度在科技面前的脆弱性,及其与AI竞争的挫败感 …
公开信提到:【建议在暂停AI大模型竞赛的6个月里,由业界和政府部门共同制定并实施一套AI设计和开发规范,并嵌入共同遵守的安全协议,再由独立的外部专家和部门负责严格的审计和监督;同时要求在一个AI系统设计之初,即开始训练之前,就应当加入安全审查,并在NN系统中加入安全技术,由此形成一套包含治理系统的AI设计范式】
这个提议是健康而中肯的,相信会有广泛的支持。从事AI和数据科学领域的朋友都有感触,尤其是面向公共服务的设计者,AI就相当于互联网时代的Utilities,供需双方不仅是服务交付的关系,还有一种数据层面的共生关系,用户的在线-请求-交付的日活链会被服务端存录并形成标签和叙事,被用于后续更加周全的个性化搜推+计算广告。但需要警醒的是,这种标签和叙事是指向一个自然人/社会人口的Profile;这些廉价易得的、高置信度的Profile样本往往包含人脸、身份、喜好、财务背景、家族成员和社会关系等等各种,它们被有序存储在数据库、前端缓存和冷机中,以及在AI数据工程中被反复存取和重用。相信这对于任何一组Profile标签背后的自然人的隐私权保护都是失控和无力的;而数据隐私安全的次生伤害很大,当事人承受的损失也是叠加性的。
这方面当然有立法保护,但难点在于司法取证和证据保护,经过清洗-增强(如图像twist和interpolation)和重新范式化的数据基本无法取证。
列举几个例子,反思AI系统中原生的脆弱性:
1、Prompt的样本对抗攻击:国外的一个测例,在Prompt请求中注入毒性知识或者脚本代码(Injection),使LLM在自动存录标签和输出结果的时候携带受干扰的或是有害的信息;比如当用户请求特定词条时,返回页面可以携带特定隐藏信息甚至可执行脚本;2、隐写NN模型参数实现恶意程序嵌入:由于模型的解释性差和泛化力强,通过神经网络嵌入的恶意代码可以在极低性能干扰的情况下实现传播和破坏。国内一则测例表明:在对全链接层进行批量归一化的情况下,178MB AlexNet模型中通过恶意修改参数末位而嵌入36.9MB的恶意代码或病毒,而准确率损失小于1%,性能损失小于1%;且由于并未改变NN文件结构,使其逃避了病毒扫描;倘若这个实验发生在LLM,结果会更超出想象,这也是Hinton与Musk等人罕见达成一致的地方。参考论文:3、后门和数据毒性(污染样本):参考两篇论文:4、Redis开源库bug导致3/27 ChatGPT数据泄露事件:据传约1.2%的ChatGPT Plus用户信息泄露(包含姓名/信用卡/支付地址等信息),以及大量聊天查询被泄露;随后一则Twtr质疑其也许不是简单的bug,而是0day Exploit;5、不良数据:过度收集超出使用需求和用户许可范围的上下文数据;以及由于数据集是在特定上下文中截取的,倘若重用的过程不合规或是存在恶意,就会导致垃圾资讯的批量生成、肖像图片的违法加工和侵权滥用等事件。etc .
上述列举的安全风险看似很多都不能远程操控,大部分都发生在模型部署之前的开发和训练阶段;但实际不然,在当下的LLM众包生态里,由第三方标注组或是调参组不慎代入恶意代码或是主动嵌入恶意代码的行为是难以管控的;NN系统自身不具备验证和保护机制,加上很多工作并非是一站式交付的,而是由不同工具平台分阶段交付,这些中间管理断层以及众包项目组的裸跑也使得安全/内控策略难以固化下来。
因此“公开信”所倡议的安全风控+数据隐私制度是有理据的,正是过去十数年间IT和网络行业普遍遵循的经典制度:分级保护 - 身份溯源 - 审计取证,再加上针对NN系统自身脆弱性的技术保护,旨在保证“应用边界+数据免责+事件追溯...”等等能力。并且这样一来,服务供需双方的安全协议就不能视为可靠了,尤其是定义分级授权和司法溯源的方面,需要第三方的安全和信用机构主导,针对组织和自然人身份(对应水印或签名)、数据主权认定、审计和追溯等等工作进行认证和履行。这让AI和LLM的工作受到制度保护,使安全风险和数据隐私得到重视,未尝不是一种进步。
除了制度化的管控;近年来也流行很多安全技术,广泛用于大型toB AI项目中,例如银行/政府/医联体等行业;这些客户对于数据主权、运营边界和事件溯源的要求甚是严苛。因此在交付项目中通常会包含一些附加方案,比如“分级安全策略、临时和永久脱敏、联邦学习/多方安全计算、数据销毁、PKI认证体系和PMI授权体系、针对整个模型的全同态加密,甚至是处理器和内存芯片级的安全认证和隔离措施(TEE/SGX等)”等,尤其对于部分政府客户,且要求实施Trusted AI这样的可信计算架构。另外,在监督和检测方面,像是金融业和运营商项目,还会尝试基于GNN网络单独构建一套安全异常检测系统,以便感知恶意攻击并在应对过程中具备鲁棒性。以及在内控管理方面,有些客户会针对数据工程和训练平台进行改造,构建带有审计和认证功能的一站式交付平台,确保数据清洗筛选-标注-增强-训练-部署过程中的可控可查。
这些工作中的一部分需要由第三方的安全和信用机构主导,并制定标准和履行核查责任,因此花费6个月的时间使全部机制落地看似是合情的。至少Musk等人在“安全和隐私保护”方向的倡议,我是相当支持的。
"4、This does not mean a pause on AI de【【微信】】, merely a stepping back from the dangerous race to e【【微信】】ble black-box models with emergent capabilities. ”
这算是《公开信》当中唯二的中肯倡议。事实上,超大模型的涌现力(Emergence)正在引发猜疑链和潘多拉魔盒观点的形成,未来AI工作的可解释性问题、模型机理问题会成为下一个很重要的课题。
脑科学和机器学习领域都存在数学上“不可解释性”的问题。对于ChatGPT的主创者而言,他不会预知当参数堆到175B(120B)的时候会有惊喜,这是Neural Network自发产生的Emergence,当主创者在线性上观测到这个Emergence的曲率,才会主动调参进而将它引导为成熟的GPT3.5;因此NN模型就如人脑仿生一样,神经元信号连线变得多了,拟合度就会发生难以置信的效果。而反观大模型上的演进,就是依据原始海量数据样本中的统计规律和模式,从而自适应的调整其内部参数/权重和结构,并进一步自动且泛化的学习到更多此前未知的隐含特征和模式,最终反应出一些并未明确机理却出奇有效的预测/决策能力和特性。OpenAI GPT3.5-GPT4的大力奇迹让Emergent Capabilities变得愈加显性,同时也让零样本准确率大增,使得这个领域突然有了0.5~1个step的质变。但是,我们都难以解释和操纵这种涌现力的机理,尤其在超大规模LLM的体系里。因此当LLM作为一种收集和提供敏感信息的公共服务时,黑盒模型的执行机理/效果/伦理的不可控性就变得更显性了,猜疑链和潘多拉魔盒观点也开始成立了。尤其当AI-ML系统本身的置信度相比人脑是不可靠时(LLM does not know nature, it only concerns large probability, if the large probability e【【微信】】t, LLM will be incorrect.),可解释AI(XAI)就是保证生产逻辑/行为伦理/合规可控的必要路线,那么Musk等人的这项针对black-box系统的倡议就是合情并符合科学发展规律的。
两个例子:A:金融风控,通过LLM-ML模型识别部分用户有欺诈嫌疑,统计权重很高,但是风控业务部门不能直接使用这个结果进行仲裁处理,因为难以理解结果是如何推理的,从而无法判断准确与否;且这样完全违悖监管机构的认定和取证规程;B:医疗筛查,通过ML模型采集分析患者的过往检测数据,判断阳性肺结核的概率高,但是主治医生无法获知诊断结果可靠性,不能直接采纳和确定诊治方案,唯有继续参考自己的经验和病理实验结果。
因此,黑盒问题,即ML决策机制的理论缺陷制约了其在B端私有场景的应用,未来也将进一步制约其在公共场景的应用。XAI课题,就是要解放黑盒模型,透明化它的构建过程和推理机理,并最终使其满足监管要求。
关于NN模型的可解释性,可以包含几个层面:
- 算法的透明性和简单性(Algorithmic Transparency and Simplicity)- 表达的可解构性(Decomposability)- 模型的可担责性(Accountability)- 算法的适用边界- 因果分析和推理- 对黑盒模型的事后解释和溯源(Post-hoc Explanation)- 对模型表达能力的建模与解释
实现可解释AI(XAI)的几种方法/流派:
- 第一类是基于数据的可解释性,通常称为深度模型解释,是最容易想到的一种方法,也是很多论文里面经常涉及的一类技术;主要是基于数据分析和可视化技术,实现深度模型可视化,直观展示得到模型结果的关键依据。- 第二类是基于模型的可解释性,这类方法也称为可解释模型方法,主要是通过重新构建可解释的模型,使得模型本身具备可解释性,在输出结果的同时也输出得到该结果的依据。- 第三类是基于结果的可解释性,此类方法又称为模型归纳方法,思路是将已有模型作为一个黑盒,根据给定的一批输入和对应的输出,结合观察到模型的行为,推断出产生相应的结果的原因,这类方法的好处是完全与模型无关,任何模型皆可用。
目前看厂商侧,多个主流Framework及其工具链都相继集成了模型可解释能力,如华为MindInsight部件中集成的显著图可视化(Saliency Map 【【微信】】,或称关键特征区域可视化);这种方法属于第一类“基于数据的可解释性方法”。目前显著图可视化方法主要是针对CV领域的模型解释,常见的版本支持6种该类型的解释方法【【【微信】】、Decon【【微信】】、GuidedBackprop、GradCAM、RISE、Occlusion】;其中前4种方法属于基于梯度的解释方法,这种类型的解释方法通常利用模型的梯度计算来突显关键特征,效率较高;另外2种是Occlusion和RISE方法,属于基于扰动的解释方法,这种类型方法的好处是仅需利用模型的输入和输出,可以做到模型无关。这里引用金雪峰的文字分别说明几种SMV方法:
- 【【微信】】:最简便直接的解释方法,通过计算输出对输入的梯度,得到输入对最终输出的贡献值;而下面Decon【【微信】】和GuidedBackprop两种方法则是对【【微信】】的延展和优化;- Decon【【微信】】:对原网络中ReLU进行了修改使其成为梯度的ReLU,从而过滤负向梯度,仅关注对输出起到正向贡献的特征;- GuidedBackprop:是在原网络ReLU基础上对负梯度过滤,仅关注对输出起到正向贡献的且激活了的特征,能够减少显著图噪音;- GradCAM:针对中间激活层计算类别权重,生成对类别敏感的显著图,可以得到类别相关的解释。- RISE:使用蒙特卡洛方法,对随机掩码进行加权(权重为遮掩后的模型的输出)平均得到最终显著图;- Occlusion:通过遮掩特定位置的输入,计算模型输出的改变量来得到该位置的“贡献”,遍历全部输入,得到显著图。
这些XAI的工作也在向我们证明可解释性的趋势,这种趋势背后一方面是客户侧的业务需求,是NN机理与其输出结果的业务合理性,另一方面是监管需求,保证AI系统的内控合规和伦理边界。随着超大模型及其涌现力(Emergence)成为热点,其引发的猜疑链和潘多拉魔盒效应会进一步制约AI系统及其数据工程的置信度;AI的可解释性问题、模型机理问题应该会成为下一步很重要的课题。
BTW:关于业内的技术趋势和流派,可以侧面参考几个可解释性分析工具:SHAP (Shapley Values):一种基于博弈论的解释性方法,可以衡量输入样本不同维度对预测结0果的重要性LIME (Local Interpretable Model Agnostic Explanations):可以对任意机器模型预测给出解释的方法,可以衡量输入样本不同维度对预测结果的重要性AnchorsLRP (Layer-wise Rele【【微信】】) :repo 1 and repo 2Prediction Difference Analysis (PDA)TCAV (【【微信】】tivation Vectors)
难以置评;我主观反感以Musk为首的意见领袖将AI大模型系统视作人类文明威胁并作出备战姿态。毕竟如今的AI只是由数据驱动/喂养的一段程序,其核心机理是基于统计模型,理解数据流但并不能理解数据背后的现实,这也正是GPT4主创者Ilya Sutskever谈到的。
看看公开信中Signatories list的前10位。引用网络评论:更多地,这是一群被LLM时代无情超越、感受到冷落的、曾经执掌过AI话语权的元老们在刷存在感。
如今我们看到越来越大规模的LLM模型,它还不是AGI的终级形态,而Emergent Capabilities也并非廉价和随时可取的AGI能力,目前各方获得的计算能力和结果置信度都是基于芯片算力的堆砌、炼丹以及浩如烟海的数据样本供应,这即是Foundation Model Engineering的长板,也正是其数学机理的短板,虽然上述几个因素的经济开销和能源开销正随着技术优化而降低/减缓,但却显得极为有限,更多的超大模型项目会雨后春笋的出现,随之带来的环境代价将远超过计算效益。毕竟当前的大模型AI与类脑AGI的数学机理鸿沟是显性存在的,倘若以人脑作评价,人脑基于有限的神经元数量创造了无限的递质连接和信号关系,具有极多的学习潜力和存储潜力,仅以视锥细胞驱动视网膜成像的机理为例就已经难以攻克;倘若以当下的NLP大模型作对比(样本量/参数量/硬件算力/能耗),那么人脑并不需要如此大的Energy和Capex/Opex去实现胡言乱语。
未来AGI的终极形态,应当是在数学机理上进一步仿生人脑神经元连线及信号逻辑,实现极可靠的自适应学习潜力和无限泛化能力,控制Bias和Hallucination在较小波动内,明确Emergence机理并施以算法干预,以及近似生物计算的极低能量消耗、异步计算以及按需的能量开关。
这篇公开信中所忽略的一项LLM发展倡议,应是碳排。
以算力增量而言,ChatGPT经由微软新建的AI专用集群训练,官称总算力消耗约3640 PF-days;而在推理阶段,以今年1月份独立访客平均数1300 万计算,ChatGPT对应的芯片需求约为3万+N【【微信】】,初始投入成本约为$8亿,以额定功耗计算,每天仅支出的电费就需要$5万元。就连微软在帮OpenAI打造Infra集群时都因为算力不足而被迫暂停了一些其他项目。
同期,类似的大幅算力增量仍在陡峭增长,两年间仅中美启动基建的大型AIDC(高能/高密度机架以及算力配比重心为GPU机型的IDC)至少上百座,国内更是布满由BATBH、运营商、商汤/昆仑/讯飞等AI公司、各地方智算中心在内的基建项目。全领域预训练大模型的Emergence以及泛化能力让业内看到了AI的产业潜力,传统产业高效赋能和新产业创造。但正因为市场处于成长期而非成熟期,资本推动了大量重复建设,也加速了电水耗能和碳排,但此刻的每公斤标准煤=GDP公式下并没有换来应有的经济增量和税收,而且AI Native应用多是第三产业,多数是在存量经济中轮动。
最后,谈不上是建议;但最近几年国家东数西算、人工智能实验区等项目还是值得民企民资投入支持的,这些基建设施(一级带宽+标配双变电站+最佳选址和区划互连+PUE<1.3+高密度)允许一定程度的自由算力配比,能够满足LLM等大模型的训练和运营。未来也许可以接纳一种模式:大部分AIDC Infra由政府或是运营商投入基建,由CSP公司参与搭建Stack及合作运营,多数AI公司租用虚机实例或是私用裸金属,或是提供NN IDE和工具链,或是提供算法和应用场景;从而减轻AI行业的重资产投入,优化在有限的选址/区划和能耗碳排指标之内实现AI大模型业态;由各方协同达成安全策略,包括Infra安全性、API安全性和数据主权,并接受外部监管机构的测评和执法。
Cloud Carbon Footprint列出了Azure数据中心中A100 GPU的最低功耗46W和最高407W,由于很可能没有多少ChatGPT处理器处于闲置状态,以该范围的顶端消耗计算,每天的电力能耗将达到11870kWh。需要关注的是:“美国西部的碳排放因子为0.000322167吨/kWh,进而推算Azure运营GPT4的IDC每天会产生3.82吨二氧化碳当量,美国人平均每年约15吨二氧化碳当量,换言之,这与93个美国人每年的二氧化碳排放率相当。”曾发表在Nature的一项计算碳成本的研究揭示了与人工智能相关的碳足迹,与各家云计算IDC的模型训练直接相关;结果表明,在美国中部或德国的数据中心训练BERT模型会排放22-28公斤二氧化碳,这是在挪威(大部分电力来自水力发电)或在主要依赖核能的法国进行相同实验产生的排放量的两倍多。
综上,是我主观对《公开信》的理解;信中关于“暂停6个月新建大模型项目”的倡议,至少有一处论据是成立的,即安全隐私保护和符合监管要求;其次 ,虽然对于“Emergence"的失控以及可解释AI的倡议同样是正确的,但这一课题显然不是6个月能够攻克的,针对全领域模型及其上下游普及XAI的设计范式,也许需要6年不止。最后,我主观增加了一项“大模型与碳代价”的倡议,源于我参与过的一些IDC基建和技改项目,很多情况下,硬件和能源的双向投入并不能换来与之匹配的产业效益,而高碳排造成的环境代价是人力难以挽回的。