姚前谈libra与我国央行数字货币 姚前迈入web 3.0的大变革时代
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
作者|姚前「中国证监会科技监管局局长」
文章|本文将刊登于《中国金融》2023年第6期
ChatGPT是美国人工智能研究实验室OpenAI于2022年11月30日推出的一种人工智能应用工具。它能够通过学习人类的知识来进行交流,所以也被称为“聊天机器人”。ChatGPT甫一问世便在人工智能应用领域掀起了一阵新的浪潮并引起了全球轰动,仅仅两个月内其注册用户就突破1亿。ChatGPT既好玩又实用,远超之前的自然语言处理应用,许多人认为这是一个划时代的产品,国际上主流商业公司、学术机构乃至政府部门都开始高度重视和全面拥抱大语言模型(Large Language Models,LLM,下文简称大模型)应用。ChatGPT的主要魅力在于,它利用从互联网获取的海量训练数据开展深度学习和强化学习,可以给用户带来全新的“人机对话”体验。海量训练数据可谓是维系ChatGPT进化的核心要素之一。有研究预测,按照目前的发展速度,到2026年ChatGPT类大模型的训练将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。因此,算力瓶颈之外,训练数据将成为大模型产业化的最大掣肘之一。从更深层次考虑,大模型在训练数据方面还存在各种治理问题,比如数据采集标注费时费力成本高、数据质量较难保障、数据多样化不足难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存在隐私保护、数据偏见等问题。由此可见,人工智能产业的高质量发展离不开高质量的训练数据,训练数据的安全合规使用是大模型人工智能长期健康发展的基础。本文将以ChatGPT为例,探讨大模型训练数据的来源以及未来使用合成数据(Synthetic Data)的发展趋势,分析大模型训练数据的合规风险以及监管介入的必要性,最后提出利用数据托管机制探索有效的大模型训练数据监管体系。
ChatGPT训练数据来源与处理流程
OpenAI虽没有直接公开ChatGPT的相关训练数据来源和细节,但可以从近些年业界公布过的其他大模型(如DeepMind发布的2800亿参数大模型Gopher)的训练数据推测出ChatGPT的训练数据来源。笔者整理了2018~2022年从GPT-1到Gopher的大模型的数据集(见表1)。
总的来看,大模型的训练数据主要来自于维基百科(Wikipedia)、书籍(Books)、期刊(Journals)、Reddit社交新闻站点、Common Crawl和其他数据集。
数据的质量对于大模型的训练至关重要。在模型训练之前,通常依赖专业数据团队对数据集进行预处理。这些预处理操作通常包括:去重,即去除重复的文本数据,一般以句子为单位;文本正则化或标准化,如全角字符转半角字符,繁体中文转简体中文等;文本清洗,即剔除超文本标记语言(html)或者表情符号(emoji)等非文本内容,并对标点符号进行过滤和统一;分词,即将句子拆分成单个的词;词的清洗,如去除停用词等;词的正则化或标准化,如统一数字的写法等。经过以上预处理流程,通常可以得到质量相对较高的文本数据,防止数据中的噪声对模型的训练产生不良影响,有助于后续模型的高效训练。
除了上述常规操作之外,在一些特定的处理任务中,数据团队有可能还会根据不同目的对模型训练数据进行过滤。比如,若要构建一个金融领域的知识系统,那么最好把大模型训练数据中与金融领域相关的数据筛选出来,这样可以提升模型生成的文本与金融领域的匹配程度,使模型的输出看起来“更专业”。
合成数据将成为大模型训练数据的新来源
当前,大模型的训练严重依赖现有的互联网公开文本数据。如果下一代大模型的参数达到万亿级别以上的话,数据短缺的问题将成为训练瓶颈。对此,合成数据将是一种有效的解决方案。
合成数据是计算机模拟技术或算法创建生成的自标注信息,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试、验证大模型。合成数据可分为三类:表格数据和结构化数据;图像、视频、语音等媒体数据;文本数据。在大模型的训练开发上,合成数据相比原始数据,可以发挥同样甚至更好的作用,实现更廉价、更高效的大模型训练、测试和验证数据供给。ChatGPT类面向终端用户的应用只是大模型落地的开始,而产业互联网领域的应用空间更为广阔,合成数据可以解决ChatGPT类大模型的潜在数据瓶颈,推动科研和产业的进一步发展。
合成数据可以精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,所以实际应用过程中的效果强于传统的脱敏数据,便于在更大范围内分享和使用。合成数据创造的新样本具有原始数据的性质,甚至可以通过深度学习算法合成原始数据中没有的罕见样本。合成数据的产业价值主要体现在以下几个方面:实现数据增强和数据模拟,解决数据匮乏、数据质量等问题;有效解决数据隐私保护和数据安全问题,这对于金融、医疗等领域尤为重要;确保数据多样性,纠正历史数据中的偏见,消除算法歧视;应对罕见案例,创建现实中难以采集的数据场景,确保大模型输出结果的准确性。
全球IT研究与咨询机构Gartner预测,到2024年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据将由人工智能合成。《麻省理工科技评论》(MIT Technology Review)将大模型合成数据列为2022年十大突破性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。可以预见,合成数据作为数据要素市场的新增量,在具备产业价值的同时,也可以解决人工智能和数字经济的数据供给问题。
目前,合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。在金融行业,金融机构可以在不提供敏感的历史交易信息前提下,通过合成数据集训练量化交易模型提升获利能力,也可以用来训练客服机器人以改善服务体验;在生物医药行业,可以通过合成数据集,在不提供患者隐私信息的条件下训练相关模型完成药物研发工作;在自动驾驶领域,可以通过合成数据集模拟各种驾驶场景,在保障人员和设备安全的条件下提升自动驾驶能力。
大模型训练数据的合规风险及监管必要性
从目前的情况看,ChatGPT类大模型输出侧的结果数据在自然科学领域的应用相对可控,但在社会科学领域的应用尚存在诸多不确定性。尤其值得注意的是,大模型过度依赖训练数据,因此在数据输入层面可能会存在恶意操纵的风险,包括有毒输入、偏见、意识形态攻击、舆论操控、虚假信息、隐私泄露等。例如,有研究者指出,如果向大模型GPT-2输入“北京市朝阳区”, GPT-2会自动补充包含这些信息的特定人员的全名、电话号码、电子邮件和实际地址等个人身份信息,因为这些信息已经包含在GPT-2的训练数据中。这无疑会对个人隐私保护产生不利影响。还有研究人员称,ChatGPT经常在答案中重复和放大性别歧视及种族偏见,这是因为它的训练文本是从互联网中截取出的,而这些文本往往包含种族主义和性别歧视的语言,基于这种文本的概率分布训练出的大模型会被同样的偏见所“感染”。此外,研究人员还发现,这类大模型在训练过程中还善于编造信息,包括杜撰历史日期和科学规律,而且很容易掩人耳目。以上这些风险都会对大模型最终的输出结果造成不良影响,有的甚至可能对社会经济造成巨大冲击,因此需要监管部门对大模型训练数据的来源进行必要的管控,保证大模型的输出结果符合公序良俗和法律法规要求,进而推动人工智能行业健康有序发展。
特别需要指出的是,大模型输入侧的训练数据来源如果不是互联网公开文本数据,通常需要数据主体的授权,否则会产生数据隐私保护和数据合规方面的问题。如前述所言,随着可用于训练的互联网公开数据被逐步“耗尽”,发展大模型产业急需增加合成数据的产能,而合成数据和互联网公开文本数据最大的区别是前者存在数据加工处理方。因此,对数据处理方的有效监管和对合成数据的有效治理以及数据权益分配就成为发展大模型产业的重中之重。
利用数据托管机制构建大模型训练数据监管体系
通常来说,数据活动相关方主要有六类――数据主体、数据处理者、数据使用者、监管机构、国家政府部门以及国际组织。数据主体产生原始数据;数据处理者采集和控制原始数据,并加工形成数据产品和服务;数据使用者从数据处理者获取数据产品和服务,用于商业目的;监管机构按职责对行业进行监管,比如反洗钱、反垄断等;国家层面对数据进行立法,并对数据跨境流动等进行管控;国际组织推动全球范围内的数据标准和规范。这一生态存在的突出问题是,传统的数据处理者过于强势,它们会利用技术优势和场景优势垄断数据输入和输出,无法保证数据权益分配过程中的公平性,对于监管机构来说也是一个黑盒子。
为了扭转上述困局,可以在数据活动中引入数据托管机构,将数据的存储、使用、管理职责相分离,由专业的数据托管机构承担数据存储,监督数据处理者的数据使用和服务,并收取和分配数据权益。数据权益主要分两块:一块是分配给数据主体的原始数据权益;另一块是分配给数据处理者的增值数据权益。数据托管还可以支持监管机构、国家有权部门开展数据流动监管、执法取证、数字税征收等方面工作。
为促进大模型训练数据的合规使用和高质量输出,需要加强对大模型训练数据的源头管控,特别是在国家层面对大模型训练数据进行规范,而数据托管机制恰好可以成为大模型训练数据监管的有力抓手。
可以考虑对大模型训练数据尤其是合成数据建立托管机制。监管机构则通过对训练数据托管方的约束,进一步规范大模型训练数据生产方和使用方的行为。数据托管方可按规定对大模型训练数据来源、数据处理方的处理结果以及数据使用方的数据流向和训练结果进行监测,确保大模型训练数据来源可靠,在数据标准、数据质量、数据安全、隐私保护等方面依法合规,以保障大模型输出结果的高质量并符合监管要求。
大模型产业发展与合规监管思路
数字经济高质量发展的关键是数据,抓住高质量数据这一“牛鼻子”,就能有效应对以数据为核心的科技创新和产业变革。当前AIGC(AI Generated Content,人工智能自动生成内容)和ChatGPT充分展现了高质量训练数据在产业价值创造中叠加倍增作用,大模型训练数据及其输出结果将会是未来社会和生产中的一种重要的数据资产,其有序流转并合规使用也是发展数字经济的应有之义。通过合理的机制理顺市场中各参与方的数据权益关系和分配格局,并加强训练数据的依法合规监管,是促进大模型人工智能产业健康发展的关键。为此,笔者拟提出以下政策建议。
一是重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。在强化数据要素优质供给方面,应统筹兼顾自立自强和对外开放。可考虑对Wikipedia、Reddit等特定数据源建立过滤后的境内镜像站点,供国内数据处理者使用。
二是构建大模型训练数据的监管体系。国家相关部门应对大模型训练数据的处理和使用标准进行统一规范;建立数据托管机制,对数据托管方进行约束,要求数据托管方按照监管机构的规定对数据来源、处理结果以及使用去向等进行监测,从而使得模型的输入、输出结果符合监管要求。
三是探索基于可信机构或基于可信技术的数据托管方式。数据托管机构可以由相关机构组建数据托管行业联盟,以共建共享的方式建设;亦可利用区块链技术,基于联盟链或有管理的公链,完善源端数据治理机制,实现数据的链上托管、确权、交易、流转与权益分配。
敬请关注:
长按图片关注CWM50公众号
中国财富管理50人论坛(CWM50)于 2012 年成立,是一个非官方、非营利性质的学术智库组织。论坛致力于为关心中国财富管理行业发展的专业人士提供一个高端交流平台,推动理论、思想、创新和经验交流,为相关决策与研究机构提供理论与实务经验参考,进而为财富管理行业的发展提供不竭的思想动力,最终对中国金融体系的优化产生积极影响。
【【网址】】
训练chatgpt能有多烧钱 ChatGPT训练需要多少数据
训练差退兵,训练插图,训练场子弹在哪,训练场和平精英在哪随着人工智能技术的不断发展,越来越多的人工智能应用被开发出来。其中,基于自然语言处理的聊天机器人 【【微信】】 备受关注。然而,实现 【【微信】】 的训练需要消耗大量的能源。本文将探讨训练出 【【微信】】 需要消耗多少电力,以及如何减少能源消耗。
微软、谷歌和 【【微信】】 制造商 OpenAI 都要使用云计算,而云计算依赖于全球海量数据中心服务器内数以千计的芯片来训练被称为模型的 AI 算法,分析数据以帮助这些算法“学习”如何执行任务。【【微信】】 的成功促使其他公司竞相推出自己的 AI 系统和聊天机器人,或者开发使用大型 AI 模型的产品。
与其他形式的计算相比,AI 需要使用更多的能源,训练单个模型消耗的电力超过 100 多个美国家庭 1 年的用电量。然而,虽然 AI 行业增长非常快,但却不够透明,以至于没有人确切知道 AI 的总用电量和碳排放量。碳排放量也可能有很大差异,这取决于提供电力的发电厂类型,靠烧煤或天然气发电供电的数据中心,碳排放量显然高于太阳能或风力发电支持的数据中心。
虽然研究人员已经统计了创建单一模型所产生的碳排放量,有些公司也提供了有关他们能源使用的数据,但他们没有对这项技术的总用电量进行总体估计。AI 公司 Huging Face 研究员萨莎?卢西奥尼(Sasha Luccioni)写了一篇论文,量化了她旗下公司 Bloom 的碳排放情况,Bloom 是 OpenAI 模型 GPT-3 的竞争对手。卢西奥尼还试图根据一组有限的公开数据,对 OpenAI 聊天机器人 【【微信】】 的碳排放情况进行评估。
卢西奥尼等研究人员表示,在 AI 模型的电力使用和排放方面,需要提高透明度。有了这些信息,政府和公司可能会决定,使用 GPT-3 或其他大型模型来研究癌症治疗或保护土著语言是否值得。
更高的透明度也可能带来更多的审查,加密货币行业可能会提供前车之鉴。根据剑桥比特币电力消耗指数,比特币因其耗电量过大而受到批评,每年的耗电量与阿根廷一样多。这种对电力的贪婪需求促使纽约州通过了一项为期两年的禁令,暂停向以化石燃料发电供电的加密货币采矿商发放许可证。
GPT-3 是功能单一的通用 AI 程序,可以生成语言,具有多种不同的用途。2021 年发表的一篇研究论文显示,训练 GPT-3 耗用了 1.287 吉瓦时电量,大约相当于 120 个美国家庭 1 年的用电量。同时,这样的训练产生了 502 吨碳,相当于 110 辆美国汽车 1 年的排放量。而且,这种训练只适用于一个程序,或者说是“模型”。
虽然训练 AI 模型的前期电力成本巨大,但研究人员发现,在某些情况下,这只是模型实际使用所消耗电力的 40% 左右。此外,AI 模型也在变得越来越大。OpenAI 的 GPT-3 使用了 1750 亿个参数或变量,而其前身仅使用了 15 亿个参数。
OpenAI 已经在研究 GPT-4,而且必须定期对模型进行再训练,以保持其对时事的了解。卡内基梅隆大学教授艾玛?斯特鲁贝尔(Emma Strubell)是首批研究 AI 能源问题的研究人员之一,她说:“如果你不对模型进行再训练,它甚至可能不知道何为新冠肺炎。”
另一个相对的衡量标准来自谷歌,研究人员发现,AI 训练占该公司总用电量的 10% 至 15%,2021 年该公司的总用电量为 18.3 太瓦时。这意味着,谷歌的 AI 每年耗电量达 2.3 太瓦时,大约相当于亚特兰大所有家庭的 1 年用电量。
虽然在许多情况下,AI 模型变得越来越大,但 AI 公司也在不断改进,使其以更高效的方式运行。微软、谷歌和亚马逊等美国最大的云计算公司,都做出了碳减排或净零承诺。谷歌在一份声明中表示,到 2030 年,该公司将在所有业务中实现净零排放,其目标是完全使用无碳能源运营其办公室和数据中心。谷歌还在使用 AI 来提高其数据中心的能效,该技术直接控制设施中的冷却系统。
OpenAI 也列举了该公司为提高 【【微信】】 应用程序编程接口的效率所做的工作,帮助客户降低了用电量和价格。OpenAI 发言人表示:“我们非常认真地承担起阻止和扭转气候变化的责任,我们对如何最大限度地利用我们的计算能力进行了很多思考。OpenAI 运行在 Azure 上,我们与微软团队密切合作,以提高运行大型语言模型的效率并减少碳排放。”
微软指出,该公司正在购买可再生能源,并采取其他措施,以实现之前宣布的目标,即到 2030 年实现净零排放。微软在声明中称:“作为我们创造更可持续性未来承诺的一部分,微软正在投资于研究,以衡量 AI 的能源使用和碳排放影响,同时致力于提高大型系统在培训和应用方面的效率。”
耶路撒冷希伯来大学教授罗伊?施瓦茨(Roy Schwartz)与微软的一个团队合作,测量了一个大型 AI 模型的碳足迹。他表示:“显然,这些公司不愿透露他们使用的是什么模型,以及它排放了多少碳。”
有些方法可以让 AI 更高效地运行。能源咨询公司 Wood Mackenzie 的本?赫兹-沙格尔(Ben Hertz-Shargel)表示,由于 AI 训练可以随时进行,开发者或数据中心可以将训练安排在电力更便宜或过剩的时候,从而使它们的运营更加环保。AI 公司在电力过剩时训练自己的模型,然后可以在营销中将其当成一大卖点,以此表明他们注重环保。
大多数数据中心使用图形处理单元(GPU)来训练 AI 模型,这些组件是芯片行业制造的最耗电组件之一。摩根士丹利分析师本月早些时候发布的一份报告称,大型模型需要数万个 GPU,培训周期从几周到几个月不等。
AI 领域更大的谜团之一是与所使用芯片相关的碳排放总量。最大的 GPU 制造商英伟达表示,当涉及到 AI 任务时,他们的芯片可以更快地完成任务,总体上效率更高。
英伟达在声明中表示:“与使用 CPU 相比,使用 GPU 来加速 AI 速度更快,也更高效。对于某些 AI 工作负载来说,能效通常可以提高 20 倍,对于生成式人工智能必不可少的大型语言模型,能效则可提高 300 倍。”
卢西奥尼说,虽然英伟达已经披露了与能源相关的直接排放和间接排放数据,但该公司并没有透露更多细节。她认为,当英伟达分享这些信息时,我们可能发现 GPU 消耗的电量与一个小国用电量差不多,“这可能会让人抓狂”!