ai产业增长机会 ai领域投资前景分析
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
(报告出品方/作者:长江证券,杨洋、钟智铧)
ChatGPT:生成式AI引爆技术奇点
AIGC全称为AI-Generated Content,指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内 容的技术。与之相类似的概念还包括Synthetic media,合成式媒体,主要指基于AI生成的文字、图像、音频等。
2020年,1750亿参数的GPT-3在问答、摘要、翻译、续写等语言类任务上均展现出了优秀的通用能力,证明了“大力出奇迹”在语言类模型上的可行性。自此 之后,海量数据、更多参数、多元的数据采集渠道等成为国内清华大学、智源研究院、达摩院、华为、北京大学、百度等参与者的关注点。
2022年12月,ChatGPT 3.5令人惊艳的使用体验引爆社会热潮,搜索热度和用户增长都出现了极为明显的提升。
目前,大型文本预训练模型作为底层工具,商业变现能力逐渐清晰。以GPT-3为例,其文本生成能力已被直接应用于Writesonic、 Con【【微信】】.ai、 Snazzy AI、 Copysmith、 Copy.ai、 Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方,服务于AI dungeon等文本具有重要意义的延展应用领域。
过去传统的人工智能偏向于分析能力,即通过分析一组数据,发现其中的规律和模式并用于其他多种用途,比如应用最为广泛的个性化推荐算法。而现在人工智 能正在生成新的东西,而不是仅仅局限于分析已经存在的东西,实现了人工智能从感知理解世界到生成创造世界的跃迁。因此,从这个意义上来看,广义的 AIGC 可以看作是像人类一样具备生成创造能力的Al技术,即生成式AI它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D 交 互内容(如虚拟化身、虚拟物品、虚拟环境)等各种形式的内容和数据,以及包括开启科学新发现创造新的价值和意义等。因此,AIGC 已经加速成为了AI 领域的 新疆域,推动人工智能迎来下一个时代。
人工智能带来的生产力变革风声已近
追求生产力的提升和生产关系的优化,是人类社会发展的根源动力和核心目标,而生产力升级的最本质目标就是效率提升和成本降低。从人类社会四次工业/科技 革命来看,第一次工业革命的核心成果是以蒸汽机为代表的机械替代人力,第二次工业革命是以电力、燃油为代表的能源突破,第三次是以计算机及信息技术为 代表的信息结构性变革和自动化生产,其共同的特征就是生产规模的不断扩大、生产方式上科技应用不断地向工业和社会的更高层结构渗透。底层的、低技术含 量的、规模庞大的生产模块不断被机器替代,人力生产持续向高层的、复杂的、尖端的生产方式和技术模块演进,是一个不变的趋势。
人工智能三要素逐步成熟,推动行业进入爆发期
AIGC的本质是内容与场景,其发展需要AI与后端基建,算法、算据和算力三要素耦合共振。AIGC的三大发展阶段是: 模型赋智阶段(从现实生成数字):AIGC利用AI技术构建模拟现实世界的数字孪生模型; 认知交互阶段(从数字生成数字):A能够学习并创作更丰富的内容 ; 空间赋能阶段(从数字生成现实):AIGC基于物联网,多模态技术获取多维信息,实现更加智能的人与机器互动。
市场规模:2021 年,全球人工智能市场收支规模(含硬件、软件及服务)达 850 亿美元。IDC 预测,2022 年该市场规模将同比增长约 20%至1017亿美元,并将 于 2025 年突破 2000 亿美元大关,CAGR 达24.5%,显示出强劲的产业化增长势头。2021年,中国人工智能市场收支规模达到 82亿美元,占全球市场规模的 9.6%,在全球人工智能产业化地区中仅次于美国及欧盟,位居全球第三。IDC 预测,2022 年该市场规模将同比增长约 24%至 102 亿美元,并将于 2025 年突 破 160 亿美元。
大模型参数量快速提升,算力需求大幅增加
大模型主要由各大龙头企业推动,在国内科技公司中,阿里巴巴达摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,腾讯在2022年推出了混 元AI大模型。 大模型最核心的除了算法外主要是参数的设置,其中参数量(Params)形容模型的大小程度,类似于算法中的空间复杂度,往往参数量越大(复杂程度越高)的神经网 络模型对算力的需求程度更高,复杂的神经网络模型的算法参数量约千亿级别甚至万亿级别,与已知应用级别的呈现指数级别的差异。这些模型不仅在参数量上 达到了千亿级别,而且数据集规模也高达TB级别,想要完成这些大模型的训练,就至少需要投入超过1000PetaFlop/s-day的计算资源。
大模型主要由各大龙头企业推动,在国内科技公司中,阿里巴巴达摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,腾讯在2022年推出了混 元AI大模型。 大模型最核心的除了算法外主要是参数的设置,其中参数量(Params)形容模型的大小程度,类似于算法中的空间复杂度,往往参数量越大(复杂程度越高)的神经网 络模型对算力的需求程度更高,复杂的神经网络模型的算法参数量约千亿级别甚至万亿级别,与已知应用级别的呈现指数级别的差异。这些模型不仅在参数量上 达到了千亿级别,而且数据集规模也高达TB级别,想要完成这些大模型的训练,就至少需要投入超过1000PetaFlop/s-day的计算资源。
人工智能技术将全面赋能各行各业。预计到2025年,人工智能涉及的场景规模将达到2,081亿美金,并在无人驾驶、智慧金融、智慧医疗、智慧零售、文娱等领 域大显身手。人工智能技术对于算力的核心拉动点在于未来各应用场景内单设备芯片算力的增长和人工智能技术的行业渗透率的进一步提升,带动对云计算中心、 边缘设备和终端NPU的巨大需求。整体预计在 2030 年,人工智能相关领域对于算力的需求将达到~16,000 EFLOPS,相当于1,600亿颗高通骁龙855内置的人工 智能芯片所能提供的算力。
AI+Chiplet: 信息革命的基石
应用-软件-硬件循环向上,AI芯片发展多元变化
以人工智能芯片为例,目前主要有两种发展路径:一种是延续传统计算架构,加速硬件计算能力,主要以CPU、GPU、FPGA、ASIC为代表。当前阶段,GPU配 合CPU是AI芯片的主流,而后随着视觉、语音、深度学习的算法在FPGA以及ASIC芯片上的不断优化,此两者也将逐步占有更多的市场份额,从而与GPU达成长 期共存的局面。 深度神经网络算法是大型多层的网络模型,典型的有循环神经网络和卷积神经网络,模型单次推断通常需要数十亿甚至上百亿次的运算,对芯片的计算力提出了 更高要求,同时对器件的体积、功耗还有一定的约束。
GPU:并行运算带来对AI应用的高度适配
在架构上GPU由数以千计的更小、更高效的核心(类似于CPU中的ALU)组成,这些核心专为同时处理多任务而设计。现在的CPU,一般是多核(multi-core) 结构;而 GPU 一般是众核(many-core)结构。
为充分利用GPU的计算能力,NVIDIA在2006年推出了CUDA(Computer Unifie De【【微信】】,统一计算设备架构)这一编程架构。该架构使GPU能够 解决复杂的计算问题。它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。英伟达在GPU里面增加了Tensor Core为AI服务,它的并行力度就从基 本的数据点进化到以小矩阵快来进行计算。所以Tensor Core最基本的并行单元是一个4×4的矩阵块,能够在一个时钟周期里面算出一个4×4矩阵和另一个4×4矩 阵相乘的结果。原来用数据点来并行的话,它需要16次这样的计算,才能算出一个4×4的矩阵。相比之下Tensor Core的算力比原来的GPU要高,等价的功耗等 比原来GPU的要低,这就是Tensor Core用来做矩阵一个显著的进化。
英伟达Ampere GA100是迄今为止 设计的最大的7nm GPU。GPU完全 针对HPC市场而设计,具有科学研究, 人工智能,深度神经网络和AI推理等 应用程序。N【【微信】】基于7nm Ampere GA100 GPU,具有6912 CUDA 内核和 432 Tensor Core , 540亿个晶体管数,108个流式多处 理器。采用第三代NVLINK,GPU和 服务器双向带宽为4.8 TB/s,GPU间 的互连速度为600 GB/s。另外, Tesla A100在5120条内存总线上的 HBM2内存可达40GB。
2022年,NVIDIA推出了具有采用全 新Hopper架构的, 800亿个晶体管的 H100,这是首款支持Pcle5.0标准的 GPU,单个H100就支持40Tb/s的IO 带宽。
英伟达:三重壁垒构造AI时代软硬件一体化龙头
第一层壁垒:硬件层。GPU奠定图形渲染和AI算力基础, 英伟达硬件层的三芯战略已逐步成型:GPU解决AI大规模 并行运算痛点,DPU解决AI训练推理中设备网络通信与 CPU负荷问题,CPU填上三芯战略最后一块拼图,GPU强 耦 合 设 计 构 造 完 整 AI 解决方案 , NVlink+【【微信】】+ConnectX突破芯片直连和设备网络连 接限制,GPUDirect Storage 技术实现高性能存储和数据 访问
第二层壁垒:软件层。CUDA释放GPU潜力引航AI发展, DOCA、Omniverse等软件层进一步填充生态,增强AI行 业对英伟达的粘性。CUDA从底层代码出发发挥GPU并行运 算优势 , 奠 定 近 十 年 人 工 智 能 发 展 基 础 , DOCA 为 BlueField DPU量身定做软件开发平台,复刻GPU+CUDA 的强耦合成功路径,Omniverse初试工业共享虚拟空间, 从硬件→软件→云上社区,在强劲软硬件基础上打造系统级 AI生态圈,N【【微信】】加速AI模型开发,未来或 有望助力实现以AI开发AI。
第三层壁垒:应用层。游戏显卡、数据中心、自动驾驶、元 宇宙先后接力,十年成长曲线浪潮叠加。
景嘉微:构造图形GPU国产化基础
景嘉微在图形处理芯片领域经过多年的技术钻研,成功自主研发了一系列具有自主知识产权的GPU芯片,是公司图形显控模块产品的核心部件并以此在行业内 形成了核心技术优势。公司以JM5400研发成功为起点,不断研发更为先进且适用更为广泛的一系列GPU芯片,随着公司JM7200和JM9系列图形处理芯片的 成功研发,公司联合国内主要CPU、整机厂商、操作系统、行业应用厂商等开展适配与调试工作,共同构建国产化计算机应用生态,在通用领域成功实现广泛 应用。2022年5月,公司JM9系列第二款图形处理芯片成功研发,可以满足地理信息系统、媒体处理、CAD辅助设计、游戏、虚拟化等高性能显示需求和人工 智能计算需求,可广泛应用于用于台式机、笔记本、一体机、服务器、工控机、自助终端等设备。
沐曦:顶级团队布局全栈解决方案
沐曦2020年9月成立于上海,拥有技术完备、设计和产业化经验丰富的团队,核心成员平均拥有近20年高性能GPU产品端到端研发经验,曾主导过十多款世界 主流高性能GPU产品研发,包括GPU架构定义、GPU IP设计、GPU SoC设计及GPU系统解决方案的量产交付全流程。
打造全栈GPU芯片产品,推出MXN系列GPU(曦思)用于AI推理,MXC系列GPU(曦云)用于AI训练及通用计算,以及MXG系列GPU(曦彩)用于图形渲 染,满足数据中心对“高能效”和“高通用性”的算力需求。沐曦产品均采用完全自主研发的GPU IP,拥有完全自主知识产权的指令集和架构,配以兼容主 流GPU生态的完整软件栈(MXMACA),具备高能效和高通用性的天然优势,能够为客户构建软硬件一体的全面生态解决方案,是“双碳”背景下推动数据 中心建设和产业数字化、智能化转型升级的算力基石。
AI还可以买什么?
服务器:AI驱动的硬件军备竞赛
目前,人工智能商业价值在全球范围内获得广泛认可,行业用户对于AI价值的认 知、技术供应商在AI落地的方法论与实践方面日趋成熟。随着人工智能产业化应 用的加速发展,全球AI基础设施支出持续呈现高增长态势。 据TrendForce,截至 2022 年,预计搭载 GPGPU(General Purpose GPU) 的 AI 服务器年出货量占整体服务器比重近 1%;2023 年预计在 ChatBot 相关 应用加持下,预估出货量同比增长可达 8%;2022-2026 年复合增长率将达 10.8% 。 据 IDC , 2026 年 预 计 全 球 AI 服务器市场规模将达 347 亿 美 元 , 2020~2026E年间复合增速达17.3%。
算力芯片以外的服务器投资方向梳理
服务器的硬件主要包括:处理器、内存、芯片组、I/O(RAID卡、网卡、HBA卡)、硬盘、机箱(电源、风扇)。 在硬件的成本构成上,CPU及芯片组、内存、外部存储是大头。以一台普通的服务器生产成本为例,CPU及芯片组大致占比50% 左右,内存大致占比 15% 左 右,外部存储大致占比10%左右,其他硬件占比25%左右。AI服务器中GPU的占比则远较其他成本高。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。
ai芯片代替gpu 芯片的ai算力有什么用
ai芯片能干什么,ai芯片用途,ai芯片选型,ai芯片跟普通芯片区别“新版摩尔定律将是:全球人工智能运算量每隔 18 个月就会翻一番。”
――Sam Altman,OpenAI CEO
过去数月,全球科技巨头大秀肌肉,各种AI生成产品接连登场, 帮人类画画、写作、剪辑、制表、做 PPT 等技能。其背后的强大算力和先进模型促使各个厂商们重新构想自己的产品和商业模型。本文子标题索引:
1、AI成为当前最火热的科技热点
2、少了AI算力芯片,人工智能就是人工智障
3、英伟达祭出史上算力最强的AI芯片
4、中国AI需求与算力冰火两重天
5、打不破的专利授权壁垒
6、不断迭代的GPU架构
7、不可一世的Cuda生态
8、缺人,缺人,还是缺人
9、中国几乎所有AI芯片高科技企业都进入美帝黑名单
10、要下深功夫,禁止耍功夫
11、AI赛道国内主要参与企业及产品进度表
# AI成为当前最火热的科技热点
当前正在掀起新一轮人工智能(AI)风暴。
2022年11月,由OpenAI开发的AI聊天机器人ChatGPT横地出世,可以进行推理、编写代码、文本创作,仅三个月就引领了全球AI热潮,是史上月活用户增长最快的消费者应用。
2023年3月15日,OpenAI研发多模态预训练大模型――GPT-4,作为ChatGPT的动力来源,使用微软Azure 训练模型,更聪明强大、更准确安全、在许多专业测试中超过人脑水平。
2023年3月16日,百度发布了大语言模型、生成式AI产品――文心一言,被称为中国版ChatGPT。从现场展示来看,它回答的准确性、逻辑性、流畅性都逐渐接近人类水平。
2023年3月20日,在GTC开发者大会上发布,英伟达推出了新的Hoppper CPU――配有双 GPU NVLink 的 H100 NVL隆重登场,H100 NVL是专门针对算力需求巨大的 ChatGPT 而设计的显卡,拥有夸张的 188GB HBM3 内存(每张卡 94GB),为是十倍级ChatGPT提供了“核弹级”的运算能力!
OpenAI掀起的新一轮AI运动,英伟达又源源不断为这场运动输送算力弹药,让互联网大厂和创业者感受到巨大压力。风浪越大鱼越贵,在巨大的机会风口面前都率先布局抢占未来市场。包括阿里、百度、腾讯等中国企业宣布将研发类ChatGPT产品,或将投入生成式AI的研发。在国内,AI算力、AI大模型和生成式AI被认为部署云业务的厂商才有资格下场。
但在这场科技革命中,我们还要继续成为看客吗?
# 少了AI算力芯片,人工智能就是人工智障
埃森哲公司报告指出,如今技术行业的AI渗透度明显高出其他行业,而未来企业的成长潜力取决于其能在多大程度上应用生成式AI。更关键的是,熟练运用新技术也将成为国家发展的关键。
据IDC预计,2025年超过60%的中国企业将通过人工智能、机器学习、自然语言处理和模式识别等技术实施智能预测与决策,提升员工工作效率和企业生产力。
如今,AI技术在数据中心、智能汽车、游戏等的应用落地方面取得了丰硕的成果,要实现AI大规模应用,背后必定要有大量AI芯片的算力支持。而英伟达的GPU是全球应用最为广泛的 AI 芯片。《财富》100强企业中有一半以上都安装了英伟达的AI芯片。
智能加速卡 图源:寒武纪
AI芯片,也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块。当前,AI芯片主要分为GPU 、FPGA及以TPU、VPU为代表的ASIC芯片,其中以GPU用量最大。据 IDC 数据,预计到2025年GPU仍将占据AI芯片80%市场份额。
事实上,GPU称为目前应用最广的AI芯片,是人工智能赛道GPT训练模型算力最快的AI芯片,其应用场景还包括:数据中心、移动终端、智能安防、自动驾驶、智能家居,还可以连接量子计算机,以极快的速度进行量子纠错!还可以将GPU打入2纳米芯片制造领域,让光刻性能提升40倍!
少了AI算力芯片,人工智能就是人工智障。有了GPU就有了GPT,引爆AI,于是英伟达开始了狂飙。
# 英伟达祭出史上算力最强的AI芯片
1999年,英伟达提出GPU概念,最初规模化应用于游戏显卡,如今它在创意制作和人工智能(AI)中的使用正变得越来越流行。
从近几年的迭代来看,GPU正向大规模扩展计算能力的高性能计算(GPGPU)、人工智能计算(AI GPU)、更加逼真的图形展现(Ray Tracing GPU,光线追踪GPU)三大方向发展。根据应用场景和处理任务的不同,GPU分为传统GPU和 GPGPU。前者用于图形图像处理,后者被广泛应用于人工智能模型训练、推理领域。
图源:英特尔
在GPU领域,目前英伟达是首屈一指的老大,桌面和移动端CPU处理器领域的英特尔、AMD等公司的GPU技术和产品都与英伟达有相当大的差距。
NVIDIA技术是AI的基础。当英伟达生产出第一个超级AI芯片时,黄仁勋就亲手交给了ChatGPT的开发商OpenAI。ChatGPT是融合了大数据、大算力、强算法的大模型。数据显示,ChatGPT的总算力已高达3640PF-days,即每秒计算一千万亿次,需要持续运行3640天。为保证算法的实时性与算法质量的有效性上,OpenAI至少导入了1万块英伟达的A100/H100系列高端人工智能芯片。
不错,就是让国人咬牙切齿的A100/H100,目前美国已经全面对中国禁售。
A100芯片是英伟达2020年推出的,可以提供更快速度和更高计算能力,专用于AI推理或训练场景。
H100芯片是2022年推出的性能更强的新一代产品,采用台积电为英伟达定制的4nm工艺,拥有800亿个晶体管,是有史以来世界上最先进的通用AI芯片。
图源:英伟达
A100/H100是目前性能最强的数据中心专用GPU,市面上几乎没有可规模替代的方案。包括特斯拉、Facebook在内的全球有超过3.5万个公司都利用A100/H100芯片组建了AI计算集群,更在数据中心GPU垄断了90%以上的市场份额,成为当之无愧的算力发动机!
而为了支持实际应用,满足服务器的需求,OpenAI已使用了约2.5万个英伟达的 GPU,随着需求的增加未来预计还会增加。得益于交货时间短的 AI 芯片和服务器处理器订单的强劲推动,在晶圆代工领域走在行业前列的台积电来自来自英伟达的A100和 H100 GPU的代工订单在增加, 5nm及 4nm制程工艺的产能利用率已在回升。
GPT模型是内存和计算密集型模型,此外推理是一种高容量、外拓型工作负载,需要标准的商用服务器。针对ChatGPT等大型语言模型的推理,英伟达推出H100的拥有夸张的 188GB HBM3 内存――H100 NVL,这也是目前英伟达发布的内存最大的显卡。
H100 NVL可以处理拥有1750参数的GPT3,同时还可以支持商用PCIE服务器轻松拓展。目前在云上唯一可以实际处理ChatGPT的GPU是HGX A100,与适用于GPT3处理的HGX A100相比,一台搭载四对H100双GPU NVLINK标准服务器速度要快10倍。
据了解,这个专用的GPU预计下半年才会正式推出。谁能买到H100 NVL,谁就能在这AI大战中获取更充足的弹药!
由于美帝出口管制,中国用户仍买不到这款升级版的H100。
NVIDIA在GTC大会推出四款推理平台。将NVIDIA全栈推理软件与最新的N【【微信】】、Hopper和Grace Hopper处理器相结合,包括新推出的N【【微信】】和N【【微信】】。各平台针对AI视频、图像生成、大型语言模型部署、推荐系统推理等需求激增的工作负载进行优化。
# 中国AI需求与算力冰火两重天
中国企业无法用上最先进的GPU。目前国内云厂商拥有的GPU主要是英伟达为中国市场的特供方案――中低性能产品A10,还有 A800 系列。其中A800被视为是A100的“阉割版”。数据传输速度降低了30%,直接影响了AI集群的训练速度和效果。高端芯片从立项到上市,一般需要2-3年的时间,但英伟达仅用了2个月就把A800搞出来了。所以,阿里巴巴、腾讯、百度等一众大佬只能采用英伟达低配版GPU――美其名曰为中国特别定制的Ampere和Hopper芯片(A800和H800)。
据工信部科技司数据,目前中国AI核心产业规模达到5000亿元,企业数量接近4000家,覆盖芯片、开源框架、智能终端、智慧城市等领域。相对于OpenAI,尽管中国在 AI领域进行了很多研究成果和产业布局,但目前要达到像OpenAI的效果可能还需时日。即便百度发布的文心一言,相比ChatGPT也相当于兔子与乌龟的速度对比。其中最重要的制约是中国尚不能大规模提供AI算力支持。
图源:英伟达
在国内,云计算技术人士公认的一个说法是,1万枚英伟达A100芯片是做好AI大模型的算力门槛。美国市场研究机构TrendForce在3月1日的报告中测算称,处理1800亿个参数的GPT-3.5大模型,需要的GPU芯片数量高达2万枚。未来GPT大模型商业化所需的GPU 芯片数量甚至超过3万枚。
据媒体财经十一人统计,国内只有1家企业拥有拥有1万枚英伟达A100 GPU。也就是说,单是从算力这个衡量指标来看,国内能在短期内布局类似ChatGPT的选手捉襟见肘。高性能GPU芯片短缺,硬件采购成本、运营成本高昂都是我们发展AI的限制。
一边火热的AI市场,一边是凉凉的算力,这难免使我们的AI产品存在智商上的先天缺陷。
美国人进行创新,中国人需要应用,这似乎成了规则铁律。中国几乎是世界上最大的GPU市场,也是英伟达的重要客户。当然,我可以随时限制你用,哪怕你财大气粗。由于中美贸易摩擦、美国技术封锁和中国先进制程落后,导致中国在GPU领域还存在着很大的差距和困难。
GPU制造和开发是一项系统性工程,不仅涉及到先进的制造技术,如摩尔定律、光刻技术等,还涉及架构设计、算法和软件生态等多个方面,缺一不可。
相对FPGA和ASIC,不论是从功能上,还是硬件上,GPU设计难度都更高。国产GPU如临万丈深渊。
# 打不破的专利授权壁垒
前面市场数据也显示,GPU是高度垄断的行业,技术领域专利数量排名前20的公司占有全球70%的GPU专利。
苹果再怎么搞,永远绕不开Imagination的IP 专利授权;同为专利技术大户,NVIDIA与三星围绕GPU专利展开了多年大战;隔岸观火的中国企业拆了英伟达显卡那么多年,也没造出同款产品,还面临知识产权的侵权问题引发的法律纠纷。英伟达借着CUDA生态与伙伴形成商业合作或者互相授权,而国产GPU与英伟达的技术代差仍然存在着巨大的鸿沟。
从IP授权来看,国内主要的GPU创业公司,如芯动、摩尔线程、壁仞等采用的是Imagination IP或芯原授权的IP。Imagination是一家英国IP公司,其图形、计算、视觉和人工智能以及连接技术可以实现出众的功耗/性能/面积指标、强大的安全性、快速的上市时间和更低的总体拥有成本。
【【微信】】产品线及其应用 图源:芯原
芯原是一家上海的自主半导体IP公司,拥有6类自主可控的处理器IP,分别为图形处理器IP、神经网络处理器IP、视频处理器IP、数字信号处理器IP、图像信号处理器IP和显示处理器IP,以及1,400多个数模混合IP和射频IP。国内多家 IP 核厂商已在积极布局 AI IP 核领域,但总体市场市场仍被寡头垄断。没有IP,意味着我们的没有人力成本优势,也将没有技术和品牌优势。我们必须尊重尊重知识产权,希望行业内重视IP。
# 不断迭代的GPU架构
英伟达之所以引领GPU创新,源于其架构底座不断迭代,从2008年的Tesla架构到2020年的Ampere架构,每一次都是对硬件的升级与改进。代际之间产品性能提升显著,性能和市场份额均领先AMD。2010年英伟达发布的Fermi架构,是第一个完整的GPU架构,确立了英伟达GPU整体的发展方向。2016年的Pascal架构,英伟达GPU开始用于数据中心和超算的深度学习中。2017年的Volta架构,完全以深度学习为核心,引入了张量核Tensor Core模块,用于执行融合乘法加法,面向人工智能应用。
在Volta基础上,2018年英伟达发布Turing架构,对Tensor Core进行了升级,增加了对INT8、INT4、【【微信】】(INT1)的计算能力,性能依次翻倍。此外,在架构配备了RT Core(专用光线追踪处理器),能够高速对光线和声音进行渲染,面向专业图形应用中应用。
2020年发布Ampere 架构,对Tensor Core又进行了升级,增加了TF32和BF16两种数据格式的支持,也增加了对稀疏矩阵计算的支持。
英伟达的对手有AMD,其 RDNA架构专为新一代高能效、高性能游戏而设计。2019 年,AMD放弃了长期使用的GCN架构,RDNA架构再度崛起,全方位布局AI芯片,与高伟达瓜分GPU市场。
RDNA 2在RDNA 1基础上进行了扩展,同时添加了光线追踪支持和其他一些增强功能。RDNA3架构第一次引入了chiplet小芯片和光追技术。架构效率以及性能并没有达到AMD希望达到的水平。AMD还宣布了下一代GPU图形架构 Polaris。该架构的推出有望将显卡性能水平提升多个层级,带来流畅的虚拟现实 (VR) 体验。
图源:AMD
Intel以往是没有独立的GPU的,而是以集成显卡存在的GPU,最近两年英特尔后知后觉发力,提供集成和独立的高性能计算、图形解决方案,设计了全新的Xe GPU架构,并细分为主打集成显卡和入门独显的超低功耗Xe LP、针对游戏优化的高性能图形Xe LPG、面向数据中心和AI应用的高性能Xe HP、适合超级计算的高性能计算Xe HPC四种微架构。
十几年来,显卡市场就英伟达和AMD两家此消彼长,但整体上一直是NVIDIA占据优势,掌握着绝对的主动权。
近几年国内GPU公司乘着政策、资本、人才和应用的东风相继涌现,除了一众老将之外,包括珠海芯动力、壁仞、沐曦、登临、天数智芯、红山微电子、瀚博半导体等新势力集结发力,在自研架构层面及相关GPU产品的高算力高方向努力。
景嘉微是首家成功研制国产GPU芯片并实现大规模工程应用的企业,先后研制成功JM5系列、JM7系列、JM9系列等GPU芯片均使用自主研发的架构。景嘉微所代表的是自主知识架构GPU的顶尖水平。2021年,景嘉微被美国列入实体清单。但景嘉微产品在人工智能、云计算、军用工业等领域,至少是保证了国内相关产业即使被封锁也依然能够正常提供服务。
沐曦致力于为异构计算提供安全可靠的GPU芯片及解决方案。旗下产品包括用于AI推理的MXN曦思系列、用于AI训练和通用计算的MXC曦云系列、用于图形渲染的MXG曦彩系列,均采用完全自主研发的GPU IP,拥有完全自主知识产权的指令集和架构,采用可重构并行计算架构,可突破传统 GPU 性能瓶颈、实现世界一流的GPU 计算性能。
登临科技是一家专注于为新兴计算领域提供高性能、高功效计算平台的高科技企业。2022年推出Goldwasser作为登临科技GPU+系列的首款产品,是国内目前首个规模量产的GPGPU高性能通用人工智能加速器。自主研发的创新通用GPU架构GPU+(基于GPGPU的软件定义片内异构体系结构)、硬件兼容CUDA等主流生态。
国内首款通用GPU――天垓100芯片 图源:天数智芯
天数智芯是中国第一家通用GPU高端芯片及高性能算力系统提供商,开发自主可控高性能通用GPU产品,加速AI计算与图形渲染融合。2022年4月发布通用天垓100GPU芯片,采用全自研的架构、计算核、指令集及基础软件栈。
深流微智能科技(深圳)有限公司已完成了超级流架构 GPU 渲染管线和计算单元等核心关键设计,同时和硬件联合调优的全栈 GPU 软件也进展顺利,首两款芯片已完成性能内测.目前深流微 XST GPU 架构已实现从系统架构、硬件架构、软件架构到微架构全自研,形成了完整且可迭代升级的基础开发生态系统。
壁仞科技致力于在聚焦云端通用智能计算、人工智能训练和推理、图形渲染等多个领域实现国产高端通用智能计算芯片的突破。2022年8月,壁仞科技发布首款通用GPU――BR100。这是国内首款真正具有国际竞争力的通用GPU,迈入‘每秒千万亿次计算’新时代。BR100基于完全自主原创架构――壁立仞架构以数据流为中心,对数据流进行深度的优化,通过六大技术特性,比较完整地解决了数据搬移的瓶颈和并行度不足的问题,使得BR100芯片在给定的工艺下实现了性能和能效的跨越式进步。
西安翔腾微电子科技有限公司是航空工业计算所全资子公司,2022年5月发布采用了完全自主的指令架构、核心算法、图形流水、软硬件代码及生态HKM9000 GPU图形处理器应用于C919大飞机,这也是国内第一款应用到民航领域的专用GPU芯片。
摩尔线程是一家以 GPU 芯片设计为主的集成电路高科技公司,专注于全功能GPU的设计与研发,致力于打造赋能下一代互联网和元宇宙的元计算平台。目前,摩尔线程基于其MUSA统一系统架构打造的全功能GPU芯片――“苏堤”和“春晓”已正式发布。芯片内置现代图形渲染、智能多媒体、AI计算加速、物理仿真及科学计算四大引擎,旨在以先进的现代GPU架构、广泛的平台通用性和全栈计算能力。
砺算自研架构、自主开发、自有知识产权GPU产品(盘古架构?、天图TrueGPU?),用于从端+云+边的高性能图形渲染。砺算第一代高性能GPU芯片G100不仅提供国际主流产品级别的图形渲染能力,也提供了GPU自带的科学计算能力、张量计算能力,将在2023年量产。
智绘微电子科技(南京)有限公司是一家创新型GPU芯片设计研发商,专注于国产自主可控的创新型GPU芯片设计。智绘微电子于2023年发布基于自研架构的GPU第二款产品IDM929,进入流片阶段并试产。依托智绘微电子自研的IDMV架构、指令集以及编译器,具备高算力、高通用性、高能效三大优势。
图源:智绘微电子
芯动力专注于国产化GPGPU芯片的设计与开发。2022年11月,芯动力第一代RPP-R8芯片一次性流片成功。基于自主原创的RPP(可重构并行处理器)芯片架构,解决了通用处理器GP-GPU效率低,而专用集成电路ASIC(TPU/NPU)没有通用编程性的问题。在以计算机视觉计算为代表的并行计算中带来高效而通用的并行计算芯片。
红山微电子是目前全球唯一在GPGPU设计上采用MIMD(多指令多数据)技术路径并已成功的芯片设计公司,国内唯一内核代码等核心IP可实现自主可控。
寒武纪目前已完成第五代智能处理器微架构和智能处理器指令集的研发工作。云端产品线方面,公司已先后推出了思元 290 和思元370 芯片及相应的云端智能加速卡系列产品、训练整机。边缘产品线方面,公司面向边缘计算场景推出的思元 220 芯片和边缘智能加速卡已落地多家头部企业,自发布以来累计销量突破百万片。
当然,还有一些没有提及的黑马初创企业。他们通过自研微架构或开发高算力产品,走向了不可逆转的国产替代道路。从今往后,国产GPU厂商将持续投入研发快速迭代架构,推动产业开放构建自主生态,加速追赶全球头部企业。
国产替代需求持续释放叠加国际局势不确定性加剧,AI及其相关产业刺激的GPU需求正在增高。国产GPU正发挥并行处理、灵活可编程的优势,为丰富的应用提供高效加速。我们相信在未来竞争中,国产GPU新架构及高性能新品将在AI人工智能、HPC高性能计算、深度学习、量子计算、元宇宙、智能汽车市场发挥奇幻作用。
# 不可一世的CUDA生态
比造芯更难的是搭建生态,全球GPU生态都来自CUDA。CUDA,是英伟达2006年推出的通用并行计算架构生态。毋庸置疑,CUDA是迄今为止最发达、最广泛的生态系统,也是深度学习库最有力的支持。虽然有PyTorch支持更多GPU厂商,再加上OpenAI的Triton搅局,但无法撼动CUDA的统治地位。目前RoCm等兼容Cuda的类计算生态蓬勃发展并处于快速推广阶段。CUDA使GPU能够解决复杂的计算问题。目前在英伟达的软件栈体系中,分为CUDA-X AI和CUDA-X HPC,分别面向AI和HPC两大领域。CUDA-X则是对CUDA核心能力的抽象和扩展,向上对接不同的行业应用需求。随着人工智能领域的蓬勃发展,GPU和CUDA被从业者视为标配,使用GPU做加速计算已成为行业主流。虽然英伟达GPU本身硬件平台的算力卓越,但其强大的CUDA软件生态才是推升GPU计算生态普及的关键力量。由于当前全球主流深度学习框架均使用 CUDA 平台进行开发,国产GPU大都可以通过兼容CUDA的部分功能快速打开市场,减少开发难度和用户移植成本。然而,CUDA 广泛功能已与英伟达GPU硬件深度耦合,不利于完全发挥国产 AI 芯片性能,所以国产GPU厂商仍需要构建自主可用的软硬件生态。
海光DCU兼容主流生态,推出国内首个全精度异构计算平台。海光 DCU 协处理器全面兼容 ROCm GPU 计算生态,ROCm 和 CUDA 在生态、编程环境等方面具有高度的相似性,也被 称为“类 CUDA”。海光DCU属于GPGPU,主要适用于AI相关场景。
AI异构计算架构CANN是华为针对AI场景推出的异构计算架构,通过提供多层次的编程接口,支持用户快速构建基于Asend平台的AI应用和业务。2018年推出1.0版本至今,已经迭代到了3.0版本。目前不仅使用于推理、训练场景,还能够实现“端边云协同”。目前N腾开发者已达到百万级。
TopsRider 图源:燧原
燧原科技专注研发针对云端数据中心的深度学习高端芯片,定位于人工智能训练及推理解决方案。驭算TopsRider是燧原科技自主知识产权的计算及编程平台,成为燧原科技构建原始创新软件生态的基石。从2019推出保持每年一代的路线图。得益于完善软件架构设计,绝大多数模型可无缝从传统GPU开发平台迁移到燧原平台上来,同时有效降低了迁移成本。同时有国内最大的AI计算单芯片邃思等组合产品选。作为国产AI芯片企业,我们可以看到它的星星之火早已开始燎原。
目前,RISC-V正在积极向高性能领域扩展,显示出RISC-V架构在GPU上的潜力。Imagination发布新一代面向移动市场的GPU IP产品DXT系列,部分采用了RISC-V。【【微信】】展示了RISC-V 3D GPU 设计,这是该公司首款基于 RISC-V 的低功耗 GPU。国内的赛P科技还推出全球性能最高的量产RISC-V开源单板计算机,也是全球首款集成3D GPU的量产RISC-V单板计算机。
RISC-V三五年后在高性能方向上无处不在,已成为国产AI芯片的最重要突破框架。随着国际形势的变化,许多开发者反而利用RISC-V的缺陷――碎片化就代表着厂商可以更独立自主的去建立自己的指令集,并在RISC-V的框架下去建设自己的生态。
# 缺人,缺人,还是缺人!
GPU是一种比CPU还要难开发的芯片,尤其在AI时代的GPU更是刀锋上的试验。
因此需要极致专业的团队,而打造一个经验丰富的工程师至少要在大厂锻炼10年以上。从目前国产企业情况来看,创始团队基本均有英伟达、AMD的工作经验的,且领军人物和工程师少之又少。一个团队从前到后要做到软硬件全栈设计开发。专业人才要涵盖架构、算法、硬件、软件以及各种验证方式,包括后端、版图、驱动、测试、结构、生产代工等,大批量还需考虑供应链等领域。
然而,需要注意的是,GPU芯片并不是AI技术发展的总关键。AI技术包含了多个组成部分,如数据采集、处理、训练和推理等,GPU芯片只是其中的一部分。AI技术的发展还需要依靠其他技术和资源的支持,如大数据、云计算、和上述的人才队伍等。
# 中国几乎所有AI芯片高科技企业都进入美帝黑名单
2020年1月6日,美国政府限制向中国出口人工智能软件条例正式生效。
根据这份条例,一切应用于智能化传感器、无人机、自动驾驶、卫星和其他自动化设备的目标识别软件都将受到管制。
2022年10月7日,美国商务部工业和安全局(BIS)宣布将对向中国出口先进人工智能(AI)和超级计算芯片制造、生产设备以及所需的某些工具实施新限制。英伟达推出的两种顶级AI计算芯片以及搭载A100、A100X及H100的D