庆云古诗词

庆云古诗词

人工智能进入产业级大模型时代 人工智能行业从业的如何突破重围

互联资讯 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】

人工智能产业升级,人工智能产业通过什么建模,人工智能 产业化,人工智能助力产业转型升级

(报告出品方/作者:国泰君安证券,肖群稀、鲍雁辛)

1.1. 机器人进化路径:从固定到移动,从独立到协作,从单一 到通用

服务机器人商业化落地的前提是产品能提供真实价值,真实价值的判断在于机器人 能否通用。在全球劳动力短缺的背景下,机器人产业蓬勃发展,2022 年全球服务机 器人市场规模 217 亿美元,过去 5 年复合增速超过 20%。然而,在高速发展背景 下,服务机器人渗透率仍然不高,规模化商业落地并不顺利。

我们认为原因在于:目前大多数服务机器人都或多或少的存在场景适应性的问题, 如无法适应环境变化,环境变化后,用户无法通过简单操作实现场景适配;智能化 程度低,行人避障及功能表现不理想;机器人部署流程复杂(如 SLAM 建图、目标 点标注等),所有部署操作只能由机器人现场部署工程师执行,使用者难以操作及参 与,且当需要变更时,仍需现场部署工程师进行操作。以商超场景为例: 环境复杂:场景中镂空的货架(超高类障碍物)、狭窄的通道、易跌落区域、低矮 类障碍物及临时的摊铺,考验机器人的通过性、感知能力、任务规划能力。 高动态化:商场人流大,易聚集,动态障碍物多,对机器人安全避障能力要求高。 特殊物体较多,场景光线变化大:如玻璃护栏、自动扶梯、玻璃转门、玻璃墙等高 透物体大多数机器人基本无法识别,且容易对激光雷达产生干扰,导致机器人误判, 发生碰撞、跌落、无法靠近作业。对于依赖视觉传感器的机器人来说,要在普通光 线、黑暗、过曝等光照条件都能稳定运行难度较大。

以上问题在工业机器人领域同样存在,影响了工业机器人渗透率的提升,直到协作 机器人 的出 现。 2022 年全 球协 作机 器人市 场规 模 89.5 亿元人 民币 ,预 计 2022~2028 年市场规模将以 22.05%的增速达到 300 亿元。2017~2022 年中国 协作机器人销量从 3618 台增长至 19351 台,预计 2023 年出货将超过 2.5 万台, 2016~2021 年市场规模从 3.6 亿人民币增长至 20.39亿人民币,复合增速 41.5%。 协作机器人也可以被认为是服务机器人,因为他们旨在与人类并肩作战。传统工业 机器人在栅栏后与人分开作业,完成的工作也有限,例如焊接、喷涂、吊装等。协 作机器人更灵活,更智能,更容易合作,更具有适应能力,使汽车、电子等制造行 业能够将自动化扩展到最终产品组装,完成任务(例如抛光和施涂涂层)以及质量 检查等等。

1.2. 如何让机器人更加通用?

使机器人更加通用,需要机器人的感知能力、思考和决策能力、行动执行能力的全 面提升。我们认为 GPT(预训练大预言模型)和人形机器人的出现,是机器人在迈 向通用人工智能的道路上的一大步。 感知世界的能力(机器人的眼睛):机器人自主移动的感知和定位技术中激光和视觉 导航是主流应用方案。计算机视觉的发展经历了基于以特征描述子代表的传统视觉 方法、以 CNN 卷积神经网络为代表的深度学习技术,目前通用的视觉大模型正处 于研究探索阶段,人形机器人的场景相对工业机器人更通用、更复杂,视觉大模型 的 All in One 的多任务训练方案能使得机器人更好地适应人类生活场景。一方面, 大模型的强拟合能力使得人形机器人在进行目标识别、避障、三维重建、语义分割 等任务时具备更高的精确度;另一方面,大模型解决了深度学习技术过分依赖单一 任务数据分布,场景泛化效果不佳的问题,通用视觉大模型通过大量数据学到更多 的通用知识,并迁移到下游任务中,基于海量数据获得的预训练模型具有较好的知识完备性,提升场景泛化效果。

思考和决策的能力(机器人的大脑):目前的机器人都是专用机器人,只能在限定场 景中应用,即使是机器人抓取,基于计算机视觉,仍然是在限定场景中,算法仅用 于识别物体,如何做、做什么仍需要人的定义。要让机器人通用,叫他去浇花,他 就知道去拿水壶,接水,然后浇花,这是需要常识才能完成的事情。如何能让机器 人拥有常识?在大模型出现之前,这个问题几乎是无解的。大模型让机器人可以拥 有常识,从而具备通用性去完成各种任务,彻底改变通用机器人实现的模式。

人类工具和环境的适应性,不用再为了机器人而造工具。执行能力 (机器人的四肢):行动能力(腿)+精细操作(手)。把机器人做成人形,就是为了 让机器人的执行能力更加通用。机器人执行任务时所处的环境是按照人类的体型建 造起来的:建筑、道路、设施、工具等,这个世界是为了方便人类这种人形生物才 这样设计。如果出现了某种新形态的机器人,人们就必须重新设计一套机器人适应 的全新环境。设计在某个特定范围内执行任务的机器人相对容易,如果想要提高机 器人的通用性,就必须选择可以作为分身的人形机器人。此外,人类与人形机器人 更容易有情感上的交流,人形机器人会让人感到亲近。日本机器人专家森昌弘的设指出:由于机器人与人类在外表、动作上相似,所以人类亦会对机器人产生正面 的情感。

1.3. 人形机器人进入商业化前夜

从 2015 年 DARPA Robotics Challenge,到 2019 年人形机器人各种科研项目被 砍,业内普遍唱衰,再到 2022 年特斯拉带动的百花齐放,人形机器人产业处于螺 旋式向上的发展之中。波士顿动力的 Atlas、Tesla 的 Optimus、小米 CyberOne、 ihmc 的 Nadia,Agility Robotics 的 Nadia、日系 Asimo 与 HRP-5P 都在探索人 形机器人的商业形态。我们对人形机器人发展过程中有代表性的产品进行了梳理: 第一台人形机器人 WABOT-1(1973 年)。1973 年日本早稻田大学加藤一郎带领 团队研发出世界上第一台真人大小的人形智能机器人――WABOT-1。该机器人有 肢体控制系统、视觉系统和对话系统,胸部装有两个摄像头,手部装有触觉传感器。

本田 E 系列机器人(1986~1993 年),奠定稳定行走基础。本田推出 E 系列双足 机器人,E0 到 E6,走路速度由慢变快,从走直线到在台阶或坡地上均可实现稳定 行走,为下一步 P 系列类人机器人的研发奠定了基础,是机器人历史的里程碑。 本田 P 系列机器人(1993-1997 年)& ASIMO(2000~2011)。1993 年本田开 发第 1 个仿人机器人原型 P1,2000 年 P 系列中的第 4也是最后一台机器人 P4 诞生,通俗称呼阿西莫(ASIMO)。2011 年推出的第三代 ASIMO 身高 1.3 米,体 重 48 公斤,行走速度是 0-9km/h,2012 最新版的 ASIMO,除具备了行走功能与 各种人类肢体动作之外,还可以预先设定动作,并依据人类的声音、手势等指令, 做出相应动作。他还具备了基本的记忆与辨识能力。2018 年本田宣布停止人形机器 人 ASIMO 的研发,专注于该技术的更多实际应用。

HPR 系列机器人(1998~2018)代替建筑行业的繁重工作:这是由日本经济产业 省和新能源与产业技术开发组织赞助,川田工业株式会社(Kawada Industries)牵 头与国立先进工业科学技术研究院(AIST)和川崎重工株式会社共同研发的通用家 庭助手机器人的开发项目。项目起始于 1998 年 HPR-1(Honda P3),先后推出了 HPR-2P、HRP-2、HRP-3P、HRP-3、HRP-4C、HRP-4 等多个人形机器人。目前 最新的机器人 HPR-5P 于 2018 年发布,该机器人身高 182cm,体重 101kg,全身 总共 37 个自由度,旨在替代建筑行业中的繁重工作。

波士顿动力(1986~2023):腿足式机器人运控技术最前沿,军事化应用特征明显。 波士顿动力最早因研发的 Big Dog 而被世界闻名,公司发布了 BigDog、Rise、 LittleDog、PETMAN、LS3、Spot、Handle、Atlas 等多个机器人,从单足、多足 机器人到人形机器人,有着明显的军事化应用的路线特征。波士顿动力是一家典型 的技术驱动的公司,从机械结构、算法步态控制、动力系统耗能等方面对机器人持 续迭代更新,核心在于发展腿式机器人以适应不同环境的使用,技术关键在于动力 学研究和机器人平衡态的控制。

Digit 系列机器人(2019~2023):具备行走能力,专注物流领域商业化。Digit 系 列是 Agility Robotics 公司在物流领域商业化的尝试,公司是从俄勒冈州立大学 (OSU)拆分出来的机器人公司,致力于研发和制造双足机器人,前后开发了 MABEL、ATRIAS、CASSIE、DIGIT 系列足式机器人。其中 CASSIE 可实现 4m/s 的 惊人配速,是腿足式机器人在快速行走能力上里程碑式的成果。2019 年,Agility 推出了人形机器人 Digit,在 Cassie 的基础上加上了躯干、手臂,并增加了更多计算 能力,支持负载 18kg 的箱子,可进行移动包裹、卸货等工作。

小米“铁大“机器人(2022):21 年小米曾发布一款机械狗 Cyberdog,是其在足 式机器人的首次尝试。2022 年 8 月,小米首个全尺寸人形仿生机器人 CyberOne 亮相秋季发布会。CyberOne 身高 177cm,体重 52kg,艺名“铁大”,能感知 45 种人类语义情绪,分辨 85 种环境语义;搭载小米自研全身控制算法,可协调运动 21 个关节;配备了 Mi Sense 视觉空间系统,可三维重建真实世界;全身 5 种关 节驱动,峰值扭矩 300Nm。

特斯拉 Optimus 机器人(2022 年):推动人形机器人商业化。Optimus 原型机亮 相于 2022 年特斯拉 AI day,身高 1.72m,体重 57kg,可负载 20kg,最快运动 速度 8km/h。目前 Optimus 仍处于研发进展迅速,仅 8 个月机器人已可实现直立 行走、搬运、洒水等复杂动作。

交互型机器人索菲亚(2015)和阿梅卡(2021),面部表情拟人化的尝试: 索菲亚 (Sophia)是由汉森机器人技术公司(Hanson Robotics)开发的类人机器人,2015 年面世。索菲娅皮肤由 Frubber 仿生材料制成,基于语音识别、计算机视觉技术, 可以识别和复制各种各样的人类面部表情,并通过分析人类表情和语言同人类对话。 阿梅卡(Ameca)由英国领先的仿生娱乐机器人设计和制造公司――工程艺术有限 公司(Engineered Arts)打造,具有 12 个全新的面部致动器,经过面部表情升级 后,能对着镜子眨眼、抿嘴、皱眉、微笑。阿梅卡能够自由进行几十种仿人类的肢 体运动,被认为是“世界上最逼真机器人”。

2.1. AI 大模型训练过程及发展趋势

大模型=预训练+微调。从 2017 年 Transformer 开始,到 GPT-1、BERT、GPT2、GPT-3、GPT-4 模型的出现,模型的参数量级实现了从亿到百万亿量级的突破, 大模型(预训练模型、Foundation Models)在无标注的数据上进行预训练,利用 专用的小规模的标注数据对模型进行微调(fine- tuning),可用于下游任务预测。 迁移学习是预训练模型的主要思想,当目标场景数据不足时,先在数据量大的公开 数据集上训练基于深度神经网络的 AI 模型,然后将其迁移到目标场景中,通过目标 场景中的小数据集进行微调,使模型达到要求的性能。预训练模型极大地减少了模 型在标记数据量下游工作的需要,从而适用于一些难以获得大量标记数据的场景。

大模型的发展过程和趋势:从参数规模上看,大模型经历了从预训练模型、大规模 预训练模型、超大规模预训练模型的阶段,参数量实现了从亿级到百万亿级的发展。 从数据模态来看,大模型正在从文本、语音、视觉等单一模态大模型,向着多种模 态融合的通用人工智能方向发展。

2.2. AI 大模型让人形机器人具备通用任务解决能力

AI 大模型将会从语音、视觉、决策、控制等多方面实现同人形机器人的结合,形成 感知、决策、控制闭环,大大提升机器人的“智慧”程度: 语音:ChatGPT 作为一种预训练语言模型,可以被应用于机器人与人类之间的自然 语言交互。例如,机器人可以通过 ChatGPT 来理解人类的自然语言指令,并根据 指令进行相应的动作。自然语言是人类最通用的交互媒介,语音作为自然语言的载 体将会是机器人拟人化的关键任务。尽管深度学习的出现已经将以语音识别技术、 自然语言处理、语音生成技术为构成模块的语音交互技术推向相对成熟的阶段,但 实际过程中仍然容易出现语义理解偏差(反讽等)、多轮对话能力不足、文字生硬的 情况。语言大模型为机器人的自主语音交互难题提供了解决方案,在上下文理解、 多语种识别、多轮对话、情绪识别、模糊语义识别等通用语言任务上,ChatGPT 表 现出了不亚于人类的理解力和语言生成能力。在以 ChatGPT 为代表的大模型的加 持下,人形机器人对通用语言的理解和交互才能提上日程,这将会是通用 AI 赋能通 用服务机器人的开始。

视觉:视觉大模型赋能人形机器人识别更精确,场景更通用。计算机视觉的发展经 历了基于以特征描述子代表的传统视觉方法、以 CNN 卷积神经网络为代表的深度 学习技术,目前通用的视觉大模型正处于研究探索阶段。一方面,大参数量模型的 强拟合能力使得人形机器人在进行目标识别、避障、三维重建、语义分割等任务时 具备更高的精确度;另一方面,通用大模型解决了过去以卷积神经网络为代表的深 度学习技术过分依赖单一任务数据分布,场景泛化效果不佳的问题,通用视觉大模 型通过大量数据学到更多的通用知识,并迁移到下游任务中,基于海量数据获得的 预训练模型具有较好的知识完备性,大大提升场景泛化效果。人形机器人的场景相 对工业机器人更通用、更复杂,视觉大模型的 All in One 的多任务训练方案能使得 机器人更好地适应人类生活场景。

决策:通用语言、环境感知能力是自动化决策的基础,多模态大模型契合人形机器 人的决策需求。单一模态智能无法解决计多模态信息的决策问题,如“语音告知 机器人去取桌子上绿色苹果”的任务。多模态统一建模,目的是增强模型的跨模态 语义对齐能力,使模型逐步标准化,使得机器人能综合视觉、语音、文本多维度信 息,实现各感官融合决策的能力。基于多模态的预训练大模型或将成为人工智能基 础设施,增强机器人可完成任务的多样性与通用性,让其不只局限于文本和图像等 单个部分,而是多应用相容,拓展单一智能为融合智能,使机器人能结合其感知到 的多模态数据实现自动化决策。

控制:生成式 AI 赋能机器人自我控制,最终形成感知、决策、控制闭环。使得人形 机器人具备通用能力,首先需要其具备“常识”,即通用的语言理解能力(语音)和 场景理解能力(视觉);其次需要其具备决策能力,即接收指令后产生的对任务的拆 解;最后,需要其具备自我控制和执行性能,生成式 AI 的代码生成能力将最终使得 机器人的感知、决策、动作形成闭环,达到自我控制的目的。事实上,近来微软团 队已经尝试将 ChatGPT 应用于机器人控制的场景中,通过提前写好机器人底层函 数库,并对其描述功能作用及目标,ChatGPT 能生成完成任务的代码。在生成式 AI 的推动下,机器人编程的门槛将会慢慢降低,最终实现自我编程、自我控制,并完 成人类习以为常的通用任务。

2.3. OpenAI 和微软将大语言模型应用于机器人

OpenAI 领投挪威人形机器人公司 1X Technologies。2017 年 OpenAI 推出了用 于机器人的开源软件 Roboschool,在机器人中部署了新的单样本模仿学习算法, 通过人类在 VR 中向机器人演示如何执行任务。2018 年,OpenAI 发布了 8 个模拟 机器人环节和事后经验回访基线实施,并用来训练在物理机器人上工作的模型。22 年,Halodi Robotics 在挪威 Sunnaas 医院测试了医护助理机器人 EVE,让其执行 后勤 工 作 。2023 年 3 月 28 日 ,OpenAI 领 投 挪威 人 形 机器 人 公 司 1X Technologies(前称 Halodi Robotics)。Halodi Robotics 通过 Ansys 初创公司计 划利用 Ansys 仿真软件开发能在日常场景中与人安全协作的人形机器人。

微软提出 ChatGPT for Robotics,利用 ChatGPT 解决机器人应用程序编写问题。 2023 年 4 月,微软在其官网发表了一篇名为《机器人 ChatGPT:设计原则和模型能力(ChatGPT for Robotics: Design Principles and Model Abilities)》论文, 这项研究的目标是观察 ChatGPT 是否可以超越文本思考,并对物理世界进行推理 来帮助完成机器人任务。人类目前仍然严重依赖手写代码来控制机器人,该团队一 直在探索如何改变这一现实,使用 OpenAI 的新人工智能语言模型 ChatGPT 实现 自然的人机交互。

人类可以从机器人流程中的 in the loop 变为 on the loop。论文提出,不要求 LLM 输出特定于机器人平台或者库的代码,只是创造简单的高级函数库供 ChatGPT 调 用,并在后端讲高级函数库链接到各个平台,场景和工具的现有库和 API。结果证 明,ChatGPT 的引入,使得人类通过自然语言等高级语言命令语言模型交互,用 户通过文本对话不断将人类的感知信息输入 ChatGPT,ChatGPT 解析观察流并在 对话系统中输出相关操作,不需要生成代码。这样,人类可以实现无缝部署各种平台和任务,人类对 ChatGPT 输出的质量和安全性进行评估。 人类在机器人 pipeline 中的任务主要是: 1)首先,定义一组高级机器人 API 或函数库。该库可以针对特定的机器人类型进 行设计,并且应该从机器人的控制栈或感知库映射到现有的低层次具体实现。为高 级 API 使用描述性名称非常重要,这样 ChatGPT 就可以推理它们的行为。 2)为 ChatGPT 编写一个文本提示,描述任务目标,同时明确说明高级库中的哪 些函数可用。提示还可以包含有关任务约束的信息,或者 ChatGPT 应该如何组织 它的答案,包括使用特定的编程语言,或使用辅助解析组件等。 3)用户通过直接检查或使用模拟器来评估 ChatGPT 的代码输出。如果需要,用 户使用自然语言向 ChatGPT 提供有关答案质量和安全性的反馈。 4)当用户对解决方案感到满意时,就可以将最终的代码部署到机器人上。

ChatGPT 可以以 zero-shot 的方式解决简单的机器人任务。对于简单的机器人任 务,用户只需要提供文本提示和函数库描述,不需要提供具体的代码实例,ChatGPT 就可以 zero-shot 解决时空推理(ChatGPT 控制一个平面机器人,用视觉伺服捕捉 篮球位置)、控制真实无人机完成物体寻找、操纵虚拟无人机实现工业检测等问题。

在人类用户 on the loop 交互下,ChatGPT 可以完成更复杂的机器人控制任务。 1)课程学习:教授 ChatGPT 简单的拾取和放置物体的技能,并将所学会的技能按 照逻辑组合用于更复杂的区块排列任务;2)Airsim 避障:ChatGPT 构建了避障算 法的大部分关键模块,但需要人工反馈无人机朝向等信息。人工反馈高级的自然语 言,ChatGPT 能够理解并在适当的位置进行代码修正。

ChatGPT 的对话系统能够解析观察并输出相关操作。1)带 API 的闭环对象导航: 为 ChatGPT 提供了对计算机视觉模型的访问,作为其函数库的一部分。ChatGPT 在其“代码“输出中构建感知-动作循环,实现估计相对物体角度、探索未知环境、 并导航到用户指定对象的功能;2)使用 ChatGPT 的对话进系统进行闭环视觉语言 导航。在模拟场景下,人类用户将新的状态观测值作为对话文本输入,ChatGPT 的 输出仅返回向前的运动距离和转弯角度,实现了用“对话系统”指导机器人一步步 导航到感兴趣区域。

执行能力(机器人的四肢):行动能力(腿)+精细操作(手)。把机器人做成人形, 是为了让机器人的执行能力更加通用。机器人执行任务时所处的环境是按照人类的 体型建造起来的:建筑、道路、设施、工具等,这个世界是为了方便人类这种人形 生物才这样设计。如果出现了某种新形态的机器人,人们就必须重新设计一套机器 人适应的全新环境。设计在某个特定范围内执行任务的机器人相对容易,如果想要 提高机器人的通用性,就必须选择可以作为分身的人形机器人。本章选择两个代表 性产品波士顿动力 Altas 和特斯拉 Optimus,从驱动、环境感知、运动控制三方面 对比方案差异,探寻人形机器人运动控制方案商业化的趋势。

波士顿动力 Altas 定位于技术的前瞻性研究,侧重探索技术应用的可能性而非商业 化。从硬件架构来看, Altas 具备出色的动态性能、瞬时功率密度和稳定的运动姿 态,可以实现高负载、高复杂度的运动, 像是一场技术驱动的盛宴。商业化并非波士 顿动力当前主要考量因素,Altas 项目更多作为一个研究平台供研究者进行学术试 验,侧重探索技术应用的可能性而非商业化。 特斯拉 Optimus 发心于人形机器人的规模化、商业化、标准化,商业化的目标驱 动下,成本、能耗成为特斯拉团队的考量指标。

3.1. 驱动:液压驱动 VS 电动驱动

3.1.1. 电驱成本低、易于维护、控制精度高,商业化潜力高

主流人形机器人的驱动方案包括液压驱动和电气驱动(伺服电机+减速器)两种。相 比电气驱动,液压驱动输出力矩大、功率密度高和过载能力强,因而能满足波士顿 动力 Atlas 高负载动作和快速运动的需求;但液压驱动的方式能耗大、成本高,同 时容易出现漏液等问题、可维护性差。一方面,商用场景下高负载动作(如跑酷、 后空翻等)属于非必要行为,另一方面,随着电驱系统功率密度和响应速度的不断 提升,我们认为结合电驱成本低、易于维护且技术应用成熟的优势,基于电驱的人 形机器人商业化可能性更高。

3.1.2. 波士顿动力 Atlas:采用“液压驱动”方案

波士顿动力全身共 28 个液压执行器,可执行高负载复杂动作。HPU(Hydraulic Power Unit)作为 Atlas 的液压动力源具备极小尺寸的高能量密度(~5kW/5Kg), 电液经由流体管线连接至各液压泵,可实现快速响应和精确力控,其高瞬时功率密 度的液压驱动器能支持机器人实现奔跑、跳跃、后空翻等复杂动作,机器人的结构 强度得益于其高集成度的结构总成。根据官方披露影像及专利细节,我们推测:踝、 膝、肘关节由液压缸驱动;髋、肩、腕关节及腰腹由摆动液压缸驱动。

3.1.3. 特斯拉 Optimus:采用“电动驱动”方案

单台 Optimus 全身 40 个执行器,是单台多关节机器人的 6~7 倍。其中:身体关 节部分采用减速器/丝杆+伺服电机的传动方式,共计 28 个执行器;机械手基于欠 驱动方案,采用电机+腱绳驱动(tendon-driven)的传动结构,单手 6 个电机,11 个自由度。

根据 Testla AI Day,特

人工智能行业的分析 人工智能正引领新的产业革命

人工智能行业发展趋势,人工智能行业龙头企业,人工智能行业有哪些,人工智能行业协会

投资分析

随着 ChatGPT 在全球范围内强势“出圈”,AI 大模型商业模式已成功跑通,我们认为 AIGC 时代即将到来。近年来,随着 AI 大模型以及算力成本不断优化,训练及推理成本持 续下降为 AIGC 商业化应用提供了先决条件。AIGC 已衍生出丰富的能力矩阵,具备了孪 生、编辑和创作三大核心能力,长期看 AIGC 具备在全行业颠覆式降本增效的应用前景。

根据《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models(2023)》(作者:Tyna Eloundou 等),AIGC 或对 80%以上的劳动者 产生影响。同时,AIGC 也可在前沿领域催化出新的产业机会,AIGC 大幅加快数字内容创 作及数字人产业发展,推动元宇宙产业加速落地。考虑到 AIGC 需强大的硬件支撑以及在 全行业广阔的应用空间,我们重点推荐三条投资主线:算力硬件支撑、推动行业生产效率 颠覆式提升、催生元宇宙发展新生态。

主线一,AIGC 算力硬件支撑产业链,AI 大模型带来的算力革命将会带动算力硬件支 撑产业链发展,衍生硬件性能有望持续提升; 主线二,AIGC 推动行业生产效率颠覆式提升。短期看,AI 已具备辅助人类完成部分 工作任务的能力,我们认为 AIGC 在软件开发、日常办公、影视娱乐、教育、电商等领域 将率先应用。长期看,随着 AI 逐步具备媲美人类的专业创造能力,AIGC 将在全行业带来 颠覆式的生产方式,我们预计娱乐、传媒以及软件开发领域相关公司将率先在成本端受益; 主线三,AIGC 催生元宇宙发展新生态。游戏公司有望率先在内容创作以及游戏设定 等方面应用 AI 大模型并在元宇宙产业中占得有利竞争位置。

AIGC悄然兴起,算力降本夯实“AI底座”

AIGC悄然兴起,ChatGPT强势“出圈”

随着人工智能越来越多应用在内容创作,AIGC 概念悄然兴起。AIGC(AI Generated Content,人工智能生成内容)指利用 AI(Artificial Intelligence,人工智能)技术可根据 用户需求自动生成与之匹配的内容。只需输入要求,AIGC 即可帮助创作者自动生成所需 内容,创作者可花费更多时间进行主题构思并减少实际创作时间,提升工作效率和创作质 量。20 世纪 50 年代以来,深度学习算法和设备算力发展迅速,AI 研究取得了长足进步。 AI 不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作。AIGC 发展可大致划分为三个阶段:早期萌芽阶段、沉淀积累阶段以及快速发展阶段,目前已进 入快速发展阶段。

ChatGPT 应用领域广泛,有望率先在 AIGC 领域落地。ChatGPT(Chat Generati【【微信】】rmer,聊天生成式预训练器)为 OpenAI 开发的聊天机器人,它建立 在 OpenAI 开发的 GPT-3 大型语言模型之上,并使用监督学习和强化学习(人类监督)技 术进行微调。在 AIGC 领域,ChatGPT 能够根据用户需求而自主创造出高质量的内容,不 但降低了创作门槛,还能大幅提高用户创作效率。AIGC 产品能力的决定性因素是互动、 数量和质量,ChatGPT 在生成和理解能力上有了显著提升,GPT-4 则推动内容形式从单 一走向多元,大幅优化了内容质量。

ChatGPT 仅用两个月 MAU 即突破 1 亿,成为史上用户增速最快的消费级应用。2022 年 11 月 OpenAI 推出 ChatGPT,一经发布即成为 AI 界“顶流”。根据 SimilarWeb 数据显 示,ChatGPT 在仅推出两个月后 MAU(Monthly Active User,月活用户)已到达 1 亿, 成为史上用户增长速度最快的消费级应用程序。根据 Sensor Tower 数据,TikTok 花费 9 个月 MAU 达到 1 亿,Instagram 则花费 2 年半的时间。

全球智能算力规模快速增长,训练成本有望持续优化

全球智能算力规模高速发展,2026 年中国智能算力规模有望增至 1271.4EFLOPS。 根据华为预测,未来 AI 将从感知走向认知,创造能力不断增强,AI 将走进日常生活并赋 予万物智能,算力需求将高速增长,2030 年全球智能算力有望达到 105ZFLOPS(每秒 10 21 次浮点计算),对比 2020 年增长 500 倍。目前,国内头部科技企业均发力布局 AI 大 模型,需依托高算力系统构建,预计国内智能算力规模将保持高增。根据 IDC 数据,2022 年中国智能算力规模达到 268.0EFLOPS(每秒 10 18 次浮点运算),预计 2026 年智能算力 规模将进入 ZFLOPS 级别,达到 1271.4EFLOPS。

AI 大模型参数呈指数级增长,新“摩尔定律”呼之欲出。近年来,随着算力以及数据 集快速发展,基于 Transformer 模型的 NLP(Natural Language Processing,自然语言处 理)算法发展迅速。AI 大模型具有“涌现能力”,当训练量超过某个阈值时,模型就会解 锁“涌现能力”,即模型精度会突然暴增。因此,最先进的 NLP 以及 【【微信】】, 计算机视觉)模型中的参数数量均持续增长,近年来呈指数增长态势。

根据《AI and Memory Wall(2021)》(作者:Amir Gholami 等)数据,近十年来 CV、NLP 和语音学习方面的 AI 模型所需算力以每两年 15 倍的速度增长,而 Transformer 模型的增长速度更快,增长 速度为每两年 750 倍。OpenAI 预计 AI 研究所需要的计算资源将每 3-4 个月翻一倍。 OpenAI首席执行官Sam Altman也于2023年2月发推文称“新版摩尔定律很快就要到来, 宇宙中的智能将每 18 个月翻一倍”。

英伟达数据中心 GPU AI 推理能力不断增强,单位算力成本不断优化。近年来,英伟 达数据中心 GPU 平均 2-3 年迭代,目前 AI 大模型训练使用的 GPU 包括 V100、A100 及 H100。从性能层面看,英伟达通过多实例 GPU(MIG)技术允许多个网络同时基于单个 GPU 运行,最大限度提升计算资源的利用率;并通过优化 GPU 架构以及指令提升大模型 训练速度。根据英伟达官网信息,英伟达数据中心 GPU AI 推理能力大幅提升,H100 相 较于 A100 超大模型的 AI 推理吞吐量提升 30 倍。与此同时,GPU 价格虽出现上涨,但涨 幅远低于算力。根据中关村在线报价以及网易科技信息,英伟达 H100 价格在 24 万元以 上,约为 A100 的 3 倍。因此,我们认为随着 GPU 架构以系统设计持续优化,单位算力 成本降低将会成为长期趋势。

参考《The Economics of Large Language Models(2023)》(作者:SUNYAN)以及 《Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM (2021)》(作者:Deepak Narayanan 等),研究人员均提出以训练词数(Tokens)、大模 型参数量(Parameters)、芯片算力(FLOPS)、芯片价格等指标为参数的成本测算模型。 我们将根据相关模型,测算 GPT-3 的训练和推理成本,以及英伟达芯片迭代带来的成本优化。

模型及硬件优化有望节省 80%以上成本,算法和数据集有望成为竞争核心。根据《The Economics of Large Language Models(2023)》(作者:SUNYAN)估算,作者预计 GPT-3 训练成本约为 140 万美元,推理成本为 0.0035 美元/1000Tokens。我们认为,受益于大模 型参数优化、算力利用率逐步提升、单位算力成本随着芯片迭代不断下降,AI 大模型训练 及推理成本有望持续降低,预计可节省 80%以上。根据《Training Compute-Optimal Large Language Models(2022)》(作者:Jordan Hoffmann 等)内容,DeepMind 认为扩展模 型参数数量的效果或是边际递减,我们认为高质量的数据集以及优质的算法有望成为 AI 大模型的核心竞争力。

AI大模型商用在即,AIGC解放生产力

多模态AI大模型高速发展,AIGC多领域落地

Transformer 模型百花齐放。2017 年以来,Transformer 为 CV 和 NLP 领域带来了 大幅性能提升,在物体检测和语义分割任务中均刷新了此前的纪录,CV 和 NLP 有望统一 在 Transformer 结构之下。近年来,学界掀起了研究 Transformer 模型的热潮,根据 《TRANSFORMER MODELS: AN INTRODUCTION AND CATALOG(2023)》(作者: Xa【【微信】】)数据统计,基于 Transformer 已发展出 60 余个 AI 大模型,其中包括名 声大噪的 GPT 系列模型。

预训练呈“大一统”趋势,Transformer 架构向多模态场景延伸。近年来,NLP、CV 和多模态等领域的预训练开始呈现大一统(big con【【微信】】)趋势。2022 年,微软亚洲 研究院推出 BEiT-3 预训练模型,在目标检测、实例分割、语义分割、视觉推理、图片描 述生成等任务上取得了 SOTA(state-of-the-art,最好/最先进)的迁移性能。通过对大量 数据进行大规模预训练,可以更轻松地将模型迁移到多种应用领域,微软亚洲研究院认为 大一统的趋势已经在三个方面逐渐显现,分别是骨干网络(backbone)、预训练任务和规 模提升。我们认为,基于 Transformer 架构的 AI 大模型将持续向多模态发展,推动 AIGC 在全行业进行全方位应用。

GPT-4 迎来巨大性能升级,OpenAI 占得 AIGC 发展先机。根据《GPT-4 Technical Report(2023)》(作者 OpenAI)内容,GPT-4 可以接受图片输入,并具备“类似人类” 的图片解读能力;GPT-4 在 60%的 AP 考试科目中取得了 5 分(满分),较 GPT-3.5 提升 30%以上;GPT-4 也在研究生入门考试 GRE 中取得了 339+4 的成绩,超越 95%的应试者。 GPT-4 引入多模态为后续生成音频、图片、视频打下了坚实基础。凭借微软全生态助力以 及 ChatGPT 在全球范围内的“出圈”表现,我们认为 OpenAI 将在 AIGC 领域加速迭代, 持续提升模型内容生成以及逻辑推理能力,占得 AIGC 发展先机。

AIGC 在多领域逐步落地,长期看 AI 有望具备专业级创作能力。受益于 AI 大模型高 速发展,AI 正逐步从内容生成进化为内容创作。从应用领域看,AIGC 可应用于文字、图 像、音乐、视频、3D 建模、建筑等领域,可在办公、传媒、艺术等场景担任辅助甚至是 创作者角色。从产业化角度看,AIGC 在文本和代码领域发展较快,如今已具备长文本写 作和基础软件开发能力,可辅助白领以及技术人员完成部分工作;在艺术创作领域,AIGC 仍在初级探索阶段,创作能力仍有较大提升空间。我们认为,随着多模态 AI 大模型能力不 断增强、针对图像、视频的算法持续优化,AIGC 有望在艺术创作领域具备超过专业人士 的创造能力。

AIGC衍生出丰富能力矩阵,推动全行业降本增效

AIGC 包括三大核心能力,已衍生出丰富能力矩阵。AI 模型在 CV 和 NLP 等单模态领 域已拥有成熟的商业化应用。近年来,多模态 AI 模型加速发展,Transformer 已发展成为 庞大的“家族”,多模态商业应用正走向成熟。参考中国信息通信研究院的研究,我们认 为 AIGC 主要包括三大核心能力:数字孪生能力,数字编辑能力和数字内容创作能力。三 大核心能力意味着将现实世界内容迁移至数字世界(孪生能力),再建立数字世界与现实 世界的内容互通并辅助现实世界的内容生成(编辑能力),最终从数字模仿进化至媲美人 类的现实创作能力(创作能力)。基于三大核心能力,AIGC 已衍生出丰富的能力矩阵,根 据京东探索研究院信息,AIGC 正在文字、语音以及图像视频等领域发展从识别到生成的 能力矩阵。

AIGC 应用前景广阔,我们认为将在日常办公、传媒、影视娱乐、电商等场景较快落地。Stable Diffusion 和 GPT-4 分别在图像和文字领域让大众感受到 AIGC 接近人类的创 作能力,各大科技巨头均加码 AI 大模型。从 2022 年开始,谷歌、微软、Meta、亚马逊、 百度、阿里巴巴、腾讯等平台型科技巨头均加大力度布局 AIGC,与现有商业模式结合的 速度有望加快。目前,传媒、影视娱乐以及电商等领域的数字化程度较高,为 AIGC 提供 了良好的土壤,AIGC 有望率先在相关行业落地。我们认为凭借 AI 持续进化的文字、图片、 视频内容生成能力,可助力相关行业大幅度降本增效,市场潜力巨大。

AIGC+文字&音频:赋能 AI 客服降本增效。AI 客服已在全球范围内普及,已从文字 对话迭代至语音对话。受益于 AIGC 快速发展,AI 客服推理能力持续增强,可以在充分理 解客户诉求的基础上进行逻辑推理并给出合适的回答。根据 IBM 商业价值研究院研究内容, 使用虚拟客服技术可在每次客户对话中节省 5.5 美元的成本。同时,AI 客服技术领先的企 业客服满意度更高:客户和客服员工满意度分别提高 12%和 9%,处理时间缩短了 15%。 我们认为,AI 在文字和音频领域的生成能力成熟度高,商用化进程较快,AI 客服有望在全 行业全面渗透。根据 Grand【【微信】】 数据,2022 年全球 AI 客服市场规模为 13.8 亿 美元,预计到 2030 年将达到 70.8 亿美元,对应 2022-2030 年 CAGR 为 22%。

AIGC+图像视频:推动影视娱乐行业降本增效。在影视娱乐领域,AI 已具备图像、视 频以及 3D 建模的创作能力。在图片领域,根据 6pen 预测,若未来五年 10%-30%的图片 内容由 AI 参与生成,市场规模有望超 600 亿元。在视频领域,2023 年 1 月,日本奈飞(Netflix JP)和日本 WIT 工作室、微软小冰公司日本分部(rinna)共同制作了动画《犬与少年》, 成为历史首次使用 AI 生成背景的商业动画片。除去人物及动物角色,绘制工作绝大部分由 AI 完成。

在 3D 建模领域,腾讯 AI Lab 展示了使用 AI 从零开始迅速搭建一座 3D 虚拟城 市的过程,所建虚拟城市面积达到 25 平方公里,包含 130 千米路网、4416 栋建筑以及超 过 38 万个室内映射。根据腾讯 AI Lab 在 2023 游戏开发者大会发布内容,建模一座如此 大的城市,过去往往需要多名美术师以年为单位的时间完成,而结合 AI 只需数周。我们认 为 AI 在动画和游戏领域已具备辅助专业创作者完成部分创作的能力,大幅提升创作效率并 减少人力成本,从而推动整个影视娱乐行业降本增效。

AIGC或对80%劳动力产生影响,2030年中国

AIGC 市场有望超万亿元 AIGC 或影响 80%劳动力的 10%工作任务,并大幅提升劳动者工作效率。AI 大模型 在文字、图像视频等方面已具备了一定的创造能力,在非手工操作以及人际交流的工作场 景中均可辅助甚至代替人力完成工作任务。根据《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models(2023)》(作者:Tyna Eloundou 等),在美国平均一个职业当中约有 15%的工作任务会受到 AI 大模型影响;大约 80%的美 国劳动者可能有至少 10%的工作任务受到 AI 大模型影响,而约 19%的劳动者可能有至少 50%的工作任务受到影响。另外,AIGC 已可在日常办公场景中大幅提升员工工作效率, 根据新华社报道,斯坦福大学和麻省理工学院针对一家技术企业的最新研究结果显示,AI 可提升技术支持员工平均 14%的劳动生产率,“新手和低技能员工”的工作速度则能提升 35%。

AIGC 行业成熟在即,2030 年中国 AIGC 市场规模有望超万亿元。根据 OpenAI 和宾 夕法尼亚大学的研究,随着 AI 大模型的推理能力不断提高,即便停止开发,其影响力仍将 持续扩大,全球范围内已掀起了一场 AIGC 投资热潮,AIGC 在各行业的商业应用正加速 落地。根据 【【微信】】 预测,AIGC 有望在未来 2-5 年进入行业成熟期。我们认为,随着国 内企业加速在研发生产端以及销售端引入 AIGC 以降本增效,国内 AIGC 产业也将迎来快 速发展期。根据量子位智库预测,2023-2025 年中国 AIGC 产业处于培育摸索期,预计年 均复合增速为 25%;2026-2030 年行业将迎来快速增长阶段,中国市场规模有望在 2030 年达到 11491 亿元。

想象力即生产力,AIGC修筑通往元宇宙之桥

想象力即生产力,AIGC掀起内容生产革命

AIGC 将走过三个发展阶段,人机协同时代即将到来。当前,内容创造已由 PGC (Professional Generated Content,专业生产内容)转向 UGC(User Generated Content, 用户生成内容),AI 辅助内容生成(AIUGC)和 AIGC 也正在全面普及。根据百度 CEO 李 彦宏的判断,AIGC 将走过三个发展阶段:第一个阶段,被称之为 AIGC 的“助手阶段”, AIGC 用来辅助人类进行内容生产,比如生产有声书、辅助视频创作等;第二个阶段,被 称之为 AIGC 的“协作阶段”,AIGC 以虚实并存的虚拟人形态出现,形成人机共生的局面。 第三个阶段,即 AIGC 的“原创阶段”,AIGC 将独立完成内容创作。我们认为,随着 AI 大模型已具备多模态的内容创造能力,AIGC 已具备大规模应用条件,人机协同时代即将 到来。

内容创作门槛降低,AI 时代想象力即生产力。AI 已从传统的分析数据发现规律升级 为分析感知数据并进行内容生产。相较于人脑只能基于自身知识图谱进行少数方向的信息 处理,AI 具备从更庞大的知识体系中进行多方向信息处理的能力,可以提供更多的创作思 路。复盘内容创作历史,在 PGC 时代,内容创作需使用专业创作工具进行内容创作,例 如摄影爱好者需学习使用专业 PS(Adobe Photoshop)工具进行修图;进入 UGC 时代, 摄影爱好者仅需学习使用门槛较低的美图秀秀即可达到媲美专业 PS 工具的修图效果。我 们认为,进入 AIGC 时代,任何人都将成为内容创作者,只需充分发挥想象力,将需求描 述给 AI 工具,AI 即可完成代码、绘图、建模等具有专业门槛的创作任务,完成效果甚至 超出创作者预期。

AIGC赋能多模态数字内容生成,加速元宇宙时代降临

元宇宙可带来沉浸式体验,数字人(Avatar)、物理世界数字重构及软件智能体 (Software Agent)为数字化世界关键。元宇宙为物理世界、增强现实(AR)及虚拟现 实(VR)在共享数字空间中的融合,元宇宙具有成为未来数字社交互动通用平台的潜力。 我们认为,构建高可用的元宇宙平台,既需要成熟的混合现实技术(MR)以实现良好的 人机交互,也需要海量的数字内容以实现比肩物理世界的数字世界体验。结合商汤对于元 宇宙的理解,我们认为 AIGC 可通过三种核心方式支持沉浸式和交互式的元宇宙体验:1) 数字人:AIGC 可为人类创建虚拟化身,提供进入虚拟世界的入口;2)物理世界数字重构: AIGC 在 3D 重建方面的应用可实现物理世界的数字重构,构建物理与数字世界的连接;3) 软件智能体:AI 大模型已具备较强的分析与推理能力,AIGC 可创造高智慧的软件智能体 与数字世界中的人类流畅交流。

AIGC 解放数字内容创作生产力,打造元宇宙底座。参考陀螺研究院的研究成果,我 们认为元宇宙数字内容创作与游戏创作具有相似性,均需要大量专业技术人员对包含文本、 图像、3D 模型、音频、视频、代码等资源进行大规模开发。长期以来,数字内容创作过 于复杂导致开发门槛很高。AIGC 极大地降低了内容创作的门槛,普通用户在 AI 的帮助下 即可化身为“专业创作者”,这将彻底解放数字内容生产力,为元宇宙提供海量数字内容。 根据 IDC 数据,2021 年,全球数据总量达到 84.5ZB,预计到 2026 年全球结构化与非结 构化数据总量将达到 221.2ZB;2025 年预计 AIGC 产生的数据将占所有数据的 10%(2021 年比例不超过 1%),2021-2025 年 CAGR 为 127%。

数字人进入 AIGC 时代,2026 年 AI 数字人市场规模有望超 100 亿元。上世纪末,创 造数字人基本依赖于手绘,创作周期长、人力成本高。随着 21 世纪初 CG 和动作捕捉技 术的发展,数字人创作进入计算机时代,但仍受专业创作者产能限制。随着多模态 AI 大模 型快速发展,数字人创作进入 AIGC 时代,数字人产业进入蓬勃发展期。结合腾讯研究院 的研究成果,我们认为目前 AIGC 不仅可以管线化生产拥有“好看”皮囊的数字人,而且不断推动数字人向着拥有“有趣”的灵魂方向发展,数字人创作周期大幅缩短。根据 IDC 预测,未来数字人将逐步过渡到纯 AI 驱动,AI 数字人市场将进入快速发展阶段,2026 年 中国 AI 数字人市场规模将达到 102.4 亿元,2022-2026 年 CAGR 约为 83%。

版权声明:除非特别标注原创,其它均来自互联网,转载时请以链接形式注明文章出处。