转载:小红书 AI产品赵哥
前言🔖
随着今年年初智能体的爆火,AI 应用井喷式发展。我们最近聊了很多 AI 相关的话题,不知道大家有没有注意到一个在 AI 聚光灯边缘的一个词 ——AI Infra。
Infra,是 Infrastructure(基础设施)的缩写。所以,AI Infra,就是人工智能基础设施。
一听到 “基础设施”,你可能立刻想到了公路、桥梁、发电站,感觉是个宏大的、离我们很遥远的土木工程概念。
是的,你的直觉是对的!AI Infra,正是支撑起我们今天所看到的一切 AI 魔法(从 ChatGPT 到 Midjourney)得以运转的、数字世界的 “公路、桥梁和发电站”。
你是否曾经有过这样的疑问:
- 为什么英伟达(NVIDIA)这家卖显卡的公司,市值能一度超越苹果、微软,成为世界南波万?它到底卖的是什么?
- 训练一个像 GPT-5.2 这样的大模型,到底需要消耗多少资源?真的像传说中那样,要烧掉一座发电站的电吗?
- 为什么有时候用 AI 画图,要排队等半天?为什么 ChatGPT 在用户量大的时候会瘫痪?这背后是什么在堵车?
今天,咱们来看看整个 AI 行业,谁是淘金者,谁是卖铲子的。
一、AI 淘金热 —— 谁在淘金?谁在卖铲子?🔖
想象一下,我们正处在一场史无前例的 AI 淘金热中。
- 淘金者 (The Gold Miners):他们是那些我们每天都在使用的、光鲜亮丽的 AI 应用。
- ChatGPT:在知识的金矿里淘金。
- Midjourney:在创意的金矿里淘金。
- 各种 AI Agent:在效率的金矿里淘金。
- 他们冲在第一线,直接面对用户,试图挖掘出能改变世界的金子(杀手级应用)。
- 卖铲人 (The Shovel Sellers):他们不直接淘金,而是为所有淘金者提供所必需的工具和服务。
- 铁铲和镐头:这就是我们今天要聊的 AI Infra。
- 历史上,在 19 世纪的加州淘金热中,真正赚得盆满钵满、并诞生了像李维斯(Levi’s)这样百年企业的,往往是那些卖铲子、卖牛仔裤、开餐馆的人。
- 因为淘金有风险,你可能挖一辈子也挖不到金子。但无论谁去淘金,他都必须买一把铲子。
AI Infra,就是这场 AI 淘金热中的铲子、镐头、矿车、炸药、地图、牛仔裤,甚至是瓶装水和工作餐。它是所有上层 AI 应用得以存在和运行的必要非充分条件。没有它,一切 AI 的奇迹都是空中楼阁。
二、AI 基建版图都包含哪些?🔖
那么,这套庞大的 AI 基础设施到底包含哪些部分呢?我们可以把它分为一个三层金字塔结构:算力层、平台层、和模型即服务(MaaS)层。
🔹第一层:算力层:发电站和炼钢厂
这是整个 AI Infra 最底层、最硬核的部分。它为 AI 提供了最基础的能源 —— 计算能力。
- 核心组件 AI 芯片 (AI Accelerators)
- GPU (Graphics Processing Unit, 图形处理器):这就是英伟达的印钞机。GPU 最初是为游戏设计的,因为它拥有数千个小型核心,非常擅长并行计算(同时做大量简单的数学题)。而训练 AI 模型,本质上就是海量的、并行的矩阵运算。GPU 的这个特性,恰好完美地契合了 AI 的需求。英伟达的 A100、H100 芯片,就是目前最抢手的 AI 燃料。
- TPU (Tensor Processing Unit, 张量处理器):谷歌为自己的 AI 框架 TensorFlow 量身定制的芯片,不对外卖,主要供自家使用。
- NPU (Neural-network Processing Unit, 神经网络处理器):更多出现在手机、汽车等终端设备上,用于在设备本地高效运行 AI 模型。
配套设施:
- 高速网络 (High-Speed Interconnect):训练一个大模型,通常需要把成千上万个 GPU 连接起来,组成一个超级计算机。这些 GPU 之间需要以极高的速度交换海量数据。像英伟达的 NVLink 和 InfiniBand 网络技术,就是连接这些 GPU 的神经网络,其重要性不亚于 GPU 本身。
- 数据中心 (Data Center):容纳这些海量 GPU、网络设备,并提供稳定供电、散热的巨大物理空间。一个现代化的 AI 数据中心。
算力层,就是 AI 世界的物理层。它决定了 AI 发展的天花板。没有足够强大的、可用的算力,再好的算法也只是纸上谈兵。这就是为什么芯片战争是当前大国科技博弈的最前沿。
🔹第二层:平台层 高速公路网和建筑工具
光有发电站和钢铁还不够,我们还需要把它们变成能用的东西。平台层,就是为 AI 开发者提供一套完整的工具链和服务,让他们可以更方便、更高效地建造 AI 应用。
这一层非常庞杂,我们可以把它比作一个城市建造工具包,里面包含:
- 深度学习框架 (Deep Learning Frameworks):
- 代表:TensorFlow (谷歌出品)、PyTorch (Meta 出品)。
- 作用:它们是 AI 算法工程师的语言。这些框架将复杂的底层数学运算,封装成了开发者容易使用的 API。开发者不再需要从头开始写矩阵乘法,可以直接调用一个函数来构建神经网络。这极大地降低了 AI 开发的门槛。
- MLOps 平台 (Machine Learning Operations):
- 作用:MLOps 负责管理一个 AI 模型从出生到退休的全生命周期。它就像一套现代化的 “建筑项目管理系统”,包括:
- 数据管理:如何存储、清洗、标注海量的训练数据?
- 模型训练:如何在几千个 GPU 上,高效地协调训练任务?
- 模型部署:如何将训练好的模型,发布到线上,让 APP 可以调用?
- 模型监控:模型上线后,如何监控,它的表现如何?有没有变笨?是否需要重新训练?
- 代表:AWS SageMaker、Google Vertex AI、Azure Machine Learning 等云服务平台,以及众多创业公司。
- 作用:MLOps 负责管理一个 AI 模型从出生到退休的全生命周期。它就像一套现代化的 “建筑项目管理系统”,包括:
- 模型与数据集托管平台 (Model & Dataset Hubs):
- 代表:Hugging Face、GitHub。
- 作用:Hugging Face 被称为 “AI 界的 GitHub”。全世界的开发者可以把他们训练好的模型、准备好的数据集,上传到这里,供其他人下载和使用。这极大地促进了 AI 社区的开源与协作,避免了大家重复造轮子。
平台层,是连接 “原始算力” 和 “上层应用” 的桥梁。它让建造 AI 这件事,从手工作坊式的刀耕火种,变成了工业化、标准化的 “流水线作业”。
🔹第三层:模型即服务层(MaaS)自来水和电力网
这是最新出现,也是离我们普通用户最近的一层。
- 核心思想:绝大多数公司和开发者,其实并不需要自己去从头训练一个巨大的基础模型。这既昂贵又没必要。他们需要的,只是使用这些强大模型的能力。
- MaaS 层做的,就是把那些顶尖的基础大模型(比如 GPT-5.2, Llama 3, Claude 4.5),通过 API 的方式,打包成一种像自来水或电力一样的公共服务,并且按流量计费。
- 代表:OpenAI API、Anthropic API、Google Gemini API,以及国内的百度千帆、阿里通义千问等
- 工作模式:
- a.一个创业公司想开发一个 AI 法律助手 APP。
- b.它不需要自己训练一个法律大模型。
- c.它只需要在自己的 APP 后端,去调用 OpenAI 的 API。当用户在 APP 里提问时,APP 就把问题通过 API 发送给 GPT-5.2,然后把 GPT-5.2 的回答再显示给用户。
- d.这家公司只需要为它调用的 API 次数(按 Token 量)付费,就像我们为用了多少度电付费一样。
MaaS 层,是一次行业上的分工。它让擅长 “炼大模型” 的 “炼大模型”(这需要巨大的算力和资本投入),擅长 “做应用” 的 “做应用”。这极大地释放了 AI 应用的创新活力。
三、为什么说卖铲子的更赚钱?—— AI Infra 的商业逻辑🔖
现在,我们可以回到最初的那个问题了:为什么英伟达这么值钱?
因为在当前这个 AI 应用的战国时代,谁能成为最终的淘金王(比如下一个抖音、下一个微信),还充满巨大的不确定性。但可以确定的是,所有参与这场游戏的人,都必须从英伟达那里购买算力(GPU),都必须使用 PyTorch 等框架,都可能需要调用 OpenAI 的 API。
- 算力层的公司(英伟达):卖的是刚需中的刚需。只要 AI 在发展,就需要更多的算力。它们提供的是 “土地” 和 “能源”。
- 平台层的公司(云厂商、Hugging Face):卖的是效率和标准。它们帮助淘金者更快、更省力地挖矿。它们提供的是 “高速公路” 和 “建筑规范”。
- MaaS 层的公司(OpenAI、Anthropic):卖的是核心能力。它们直接提供了最强大的 “挖掘机”,你只需要学会怎么开就行。
AI Infra,赚的相当于是整个 AI 行业发展的税。这是一个更稳定、更具确定性、也更赚钱的商业模式。