从大模型走向小模型，谁将是ChatGPT布局to B行业的大赢家？

互联资讯 2023-04-18 22:00:04 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

从大模型走向小模型,谁将模型做成,从模型到布局,da模型,以什么为模型

ChatGPT淘金热

当前，爆发了ChatGPT热潮，吸引众多科技企业陆续加入其中。这与当年美国西部加利福尼亚的淘金热何其相似。

历史总会惊人的相似，ChatGPT聊天机器人好比一座数字化时代的金矿。全世界科技淘金人蜂拥而至，从潮起到潮落，潮水退去之时，能生存下来的可能不是淘金人，而是卖铲子、卖牛仔裤等提供淘金基础工具的那批人。

站在ChatGPT的行业风口，除了超大模型的演进发展，还将诞生更多的小模型专注服务垂直领域，普惠千家万户，将是必然趋势之一。从大模型走向小模型，谁将是未来的大赢家？带着这个问题，我们不妨先来捋一捋ChatGPT背后的算力和经济账。

「似乎不止于此」

ChatGPT带动了服务器与GPU增长

事实上，在业内风生水起，ChatGPT带动了不只是互联网、IT、云计算等科技公司发展的新概念，而且可以看到当前聊天机器人也激发了服务器与GPU的市场增长，毕竟并行计算架构的GPU更适合大规模AI训练与推理。眼下国内可见的是，服务器领域的浪潮信息、中科曙光、新华三、长城等也从中受益。

似乎不止于此，一位云计算行业的专业人士分析指出，ChatGPT进而带动了Cloud Financial Management云财务管理的发展，也就是现在业内热聊的FinOps，这是“Finance”和“DevOps”的综合体，强调运维过程中的成本管理和资源优化。但FinOps要实现更智能的目的，也需要背后算力的强大支撑。

业内人士笑言，什么是人工智能？顾名思义，有多少人工就有多少智能。智能不是凭空诞生，需要凭借深度学习算法对大数据进行“千锤百炼”，而大型语言模型(Large Language Models，LLMs)训练的过程必须依靠强大算力的支撑。在看到ChatGPT被热炒的同时，已经入局的相关科技公司所耗费算力也在不断狂飙。

在清楚ChatGPT背后的算力和经济账之前，需要了解一下大型语言模型（LLMs）是什么？目前业界对大型语言模型（LLMs）有着明确的定义，凭借深度学习算法进行训练，通过大量语料库数据来学习文本的概率分布和语法结构，并自动生成大量与语料库类似的高质量新文本，持续的训练可以提高生成质量。目前大型语言模型（LLMs）已经可以实现如互动问答、文本识别、文本分类、文本生成、代码生成等应用。但是大型语言模型（LLMs）目前无法识别不真实的语料数据。从而在采用正确语料数据过程中，也激发了业界相关数据标准公司的发展。

涉及LLMs的经典模型如BERT、GPT-3、Megatron-Turing NLG、GPT-4等。大型语言模型（LLMs）往往在大数据量的大规模数据集上进行训练，如GPT-3就有约1750亿个参数，在570千兆字节的文本上进行训练。而发展到OpenAI在2023年3月最新推出的GPT-4，标志着大型多模态AI开始崛起，业内之前有人预估GPT-4会拥有超过1万亿个参数。虽然OpenAI并未公布GPT-4的具体参数，但是据DeepMind研究发现，GPT-4将比GPT-3略大，达到计算最优所需的训练参数将有5万亿个。

实际上，十分惊人的大模型训练，对芯片的浮点计算能力要求超高。当前，ChatGPT采用的就是GPT-3大型语言模型（LLMs）进行训练，进行一次GPT-3训练需要总算力消耗约为3640PF-days，相当于每秒计算一千万亿次，需要算将近10年时间。这将意味着需要数亿美元投资数个大规模数据中心，每个数据中心算力达到500P，才能支撑得住。来自DeepMind的分析显示，为了最小化训练损失，训练GPT-4所需FLOP每秒浮点运算次数将是GPT-3的10-20倍。

从成本上来看，据Lambda Labs首席科学官Chuan li介绍，参数有1750亿个的GPT-3单次训练成本预计达到数百万美元。对照DeepMind的研究来看，单次训练GPT-4预估达到千万级美元的成本。

据SimilarWeb数据，2023年1月ChatGPT官网总访问量为6.16亿次；据《Fortune》杂志，每次用户与ChatGPT互动，产生的算力云服务成本约0.01美元。ChatGPT训练基于针对GPT-3.5模型进行，基本参数自然不会比GPT-3模型少。假设单位算力成本固定，ChatGPT单月运营所需算力估算约4874.4PFlop/s-day，单月运营对应成本将达到数百万美元。

需要指出的是，为了支撑GPT-3、GPT-3.5、GPT-4的大模型训练，OpenAI采用上万颗英伟达高端A100 GPU打造了一台特别的超级计算机，其基础设施成本就高达数亿美元。

像这样稍微算一算ChatGPT背后所需算力与经济账，巨头玩家“井喷式”投入令人无不惊讶。现在看来，ChatGPT基于大型语言模型（LLMs）训练和推理的前期发展，恐怕只能由少数几个全球科技巨头玩家所主导了。

然而，无论是针对ChatGPT进行怎样的训练，任何“淘金”入局者必然都有一个相同的刚需，希望支撑训练平台的GPU算力的效率更高成本更低，这关乎着任何一家入局者的前期投入与研究回报。

那么，谁来为ChatGPT“淘金”入局者提供更好的GPU加持工具呢？值得深思。

「从巨头玩家到垂直行业应用」

未来模型变小才能更有机会

但是，面向垂直行业“淘金”，这样的ChatGPT主流玩家应该不是目前在ChatGPT上投入巨资的微软、谷歌等科技大佬，毕竟他们热衷的还是搜索引擎等大应用的大模型训练。当然，国内也有百度、腾讯、阿里、字节跳动、京东、360、科大讯飞等知名科技企业相继参与了进来，但这些科技公司更多聚焦在自身现有业务体系上做ChatGPT加持，开始热心ChatGPT垂直行业布局的还是比较少。

可见，专注ChatGPT垂直行业发展的主角，应当还是那些拥有强大集成能力的软件开发商。

ChatGPT鍦ㄥ浗鍐呮湁鍝簺搴旂敤 chatgpt鏄伐鍏疯繕鏄柊鐗╃chatc,chat *p,chatwit,chatw

ChatGPT是由OpenAI公司开发的预训练语言模型，目前已经开源并在GitHub上发布了相关代码和模型，提供了使用Python编写的API。如果您要使用ChatGPT，您可以通过以下步骤进行下载和安装：

在GitHub上下载：您可以在OpenAI的GitHub代码库中获取ChatGPT代码和模型文件。访问【【网址】】/openai/gpt-2，下载最新或指定版本的源代码并解压缩。
安装依赖项：下载并解压缩ChatGPT代码后，您需要进入代码目录并安装必要的依赖项。运行“pip install -r re【【微信】】.txt”命令即可实现。
下载模型：模型文件可以通过GitHub进行下载，存储在Google Drive上。你需要使用gdown（pip install gdown）运行“sh download_model.sh”脚本下载模型。
运行代码：使用已经下载的模型和代码，您可以调用GPT-2生成API以实现特定任务的应用。

需要注意的是，在使用ChatGPT时，您需要对Python的基本使用和自然语言处理领域有一定的理解和基础，否则可能会出现问题。另外，您还需要具备对训练数据集和模型超参数的调整和运行能力，以获得更好的生成效果和应用性能。

由于ChatGPT模型是由OpenAI开发并维护的，该模型在全球范围都可以访问，并没有中文镜像版。但是，一些国内的开发者和机构已经将ChatGPT模型进行中文化，并开发了相应的中文镜像版，用于在中国境内进行使用。

这些中文化的ChatGPT模型和镜像版通常会对模型的训练数据、模型的参数和模型的应用进行优化和调整，以适应中文语种的特点和需要。具体而言，这些优化和调整包括：