每天吃透一个 AI 知识点 —— AI Infra

转载：小红书 AI产品赵哥

前言🔖

随着今年年初智能体的爆火，AI 应用井喷式发展。我们最近聊了很多 AI 相关的话题，不知道大家有没有注意到一个在 AI 聚光灯边缘的一个词 ——AI Infra。

Infra，是 Infrastructure（基础设施）的缩写。所以，AI Infra，就是人工智能基础设施。

一听到 “基础设施”，你可能立刻想到了公路、桥梁、发电站，感觉是个宏大的、离我们很遥远的土木工程概念。

是的，你的直觉是对的！AI Infra，正是支撑起我们今天所看到的一切 AI 魔法（从 ChatGPT 到 Midjourney）得以运转的、数字世界的 “公路、桥梁和发电站”。

你是否曾经有过这样的疑问：

为什么英伟达（NVIDIA）这家卖显卡的公司，市值能一度超越苹果、微软，成为世界南波万？它到底卖的是什么？
训练一个像 GPT-5.2 这样的大模型，到底需要消耗多少资源？真的像传说中那样，要烧掉一座发电站的电吗？
为什么有时候用 AI 画图，要排队等半天？为什么 ChatGPT 在用户量大的时候会瘫痪？这背后是什么在堵车？

今天，咱们来看看整个 AI 行业，谁是淘金者，谁是卖铲子的。

一、AI 淘金热 —— 谁在淘金？谁在卖铲子？🔖

想象一下，我们正处在一场史无前例的 AI 淘金热中。

淘金者 (The Gold Miners)：他们是那些我们每天都在使用的、光鲜亮丽的 AI 应用。
- ChatGPT：在知识的金矿里淘金。
- Midjourney：在创意的金矿里淘金。
- 各种 AI Agent：在效率的金矿里淘金。
- 他们冲在第一线，直接面对用户，试图挖掘出能改变世界的金子（杀手级应用）。
卖铲人 (The Shovel Sellers)：他们不直接淘金，而是为所有淘金者提供所必需的工具和服务。
- 铁铲和镐头：这就是我们今天要聊的 AI Infra。
- 历史上，在 19 世纪的加州淘金热中，真正赚得盆满钵满、并诞生了像李维斯（Levi’s）这样百年企业的，往往是那些卖铲子、卖牛仔裤、开餐馆的人。
- 因为淘金有风险，你可能挖一辈子也挖不到金子。但无论谁去淘金，他都必须买一把铲子。

AI Infra，就是这场 AI 淘金热中的铲子、镐头、矿车、炸药、地图、牛仔裤，甚至是瓶装水和工作餐。它是所有上层 AI 应用得以存在和运行的必要非充分条件。没有它，一切 AI 的奇迹都是空中楼阁。

二、AI 基建版图都包含哪些？🔖

那么，这套庞大的 AI 基础设施到底包含哪些部分呢？我们可以把它分为一个三层金字塔结构：算力层、平台层、和模型即服务（MaaS）层。

🔹第一层：算力层：发电站和炼钢厂

这是整个 AI Infra 最底层、最硬核的部分。它为 AI 提供了最基础的能源 —— 计算能力。

核心组件 AI 芯片 (AI Accelerators)
- GPU (Graphics Processing Unit, 图形处理器)：这就是英伟达的印钞机。GPU 最初是为游戏设计的，因为它拥有数千个小型核心，非常擅长并行计算（同时做大量简单的数学题）。而训练 AI 模型，本质上就是海量的、并行的矩阵运算。GPU 的这个特性，恰好完美地契合了 AI 的需求。英伟达的 A100、H100 芯片，就是目前最抢手的 AI 燃料。

TPU (Tensor Processing Unit, 张量处理器)：谷歌为自己的 AI 框架 TensorFlow 量身定制的芯片，不对外卖，主要供自家使用。
NPU (Neural-network Processing Unit, 神经网络处理器)：更多出现在手机、汽车等终端设备上，用于在设备本地高效运行 AI 模型。

配套设施：

高速网络 (High-Speed Interconnect)：训练一个大模型，通常需要把成千上万个 GPU 连接起来，组成一个超级计算机。这些 GPU 之间需要以极高的速度交换海量数据。像英伟达的 NVLink 和 InfiniBand 网络技术，就是连接这些 GPU 的神经网络，其重要性不亚于 GPU 本身。
数据中心 (Data Center)：容纳这些海量 GPU、网络设备，并提供稳定供电、散热的巨大物理空间。一个现代化的 AI 数据中心。

算力层，就是 AI 世界的物理层。它决定了 AI 发展的天花板。没有足够强大的、可用的算力，再好的算法也只是纸上谈兵。这就是为什么芯片战争是当前大国科技博弈的最前沿。

🔹第二层：平台层高速公路网和建筑工具

光有发电站和钢铁还不够，我们还需要把它们变成能用的东西。平台层，就是为 AI 开发者提供一套完整的工具链和服务，让他们可以更方便、更高效地建造 AI 应用。

这一层非常庞杂，我们可以把它比作一个城市建造工具包，里面包含：

深度学习框架 (Deep Learning Frameworks)：
- 代表：TensorFlow (谷歌出品)、PyTorch (Meta 出品)。
- 作用：它们是 AI 算法工程师的语言。这些框架将复杂的底层数学运算，封装成了开发者容易使用的 API。开发者不再需要从头开始写矩阵乘法，可以直接调用一个函数来构建神经网络。这极大地降低了 AI 开发的门槛。
MLOps 平台 (Machine Learning Operations)：
- 作用：MLOps 负责管理一个 AI 模型从出生到退休的全生命周期。它就像一套现代化的 “建筑项目管理系统”，包括：
  - 数据管理：如何存储、清洗、标注海量的训练数据？
  - 模型训练：如何在几千个 GPU 上，高效地协调训练任务？
  - 模型部署：如何将训练好的模型，发布到线上，让 APP 可以调用？
  - 模型监控：模型上线后，如何监控，它的表现如何？有没有变笨？是否需要重新训练？
- 代表：AWS SageMaker、Google Vertex AI、Azure Machine Learning 等云服务平台，以及众多创业公司。
模型与数据集托管平台 (Model & Dataset Hubs)：
- 代表：Hugging Face、GitHub。
- 作用：Hugging Face 被称为 “AI 界的 GitHub”。全世界的开发者可以把他们训练好的模型、准备好的数据集，上传到这里，供其他人下载和使用。这极大地促进了 AI 社区的开源与协作，避免了大家重复造轮子。

平台层，是连接 “原始算力” 和 “上层应用” 的桥梁。它让建造 AI 这件事，从手工作坊式的刀耕火种，变成了工业化、标准化的 “流水线作业”。

🔹第三层：模型即服务层（MaaS）自来水和电力网

这是最新出现，也是离我们普通用户最近的一层。

核心思想：绝大多数公司和开发者，其实并不需要自己去从头训练一个巨大的基础模型。这既昂贵又没必要。他们需要的，只是使用这些强大模型的能力。
MaaS 层做的，就是把那些顶尖的基础大模型（比如 GPT-5.2, Llama 3, Claude 4.5），通过 API 的方式，打包成一种像自来水或电力一样的公共服务，并且按流量计费。
代表：OpenAI API、Anthropic API、Google Gemini API，以及国内的百度千帆、阿里通义千问等
工作模式：
- a．一个创业公司想开发一个 AI 法律助手 APP。
- b．它不需要自己训练一个法律大模型。
- c．它只需要在自己的 APP 后端，去调用 OpenAI 的 API。当用户在 APP 里提问时，APP 就把问题通过 API 发送给 GPT-5.2，然后把 GPT-5.2 的回答再显示给用户。
- d．这家公司只需要为它调用的 API 次数（按 Token 量）付费，就像我们为用了多少度电付费一样。

MaaS 层，是一次行业上的分工。它让擅长 “炼大模型” 的 “炼大模型”（这需要巨大的算力和资本投入），擅长 “做应用” 的 “做应用”。这极大地释放了 AI 应用的创新活力。

三、为什么说卖铲子的更赚钱？—— AI Infra 的商业逻辑🔖

现在，我们可以回到最初的那个问题了：为什么英伟达这么值钱？

因为在当前这个 AI 应用的战国时代，谁能成为最终的淘金王（比如下一个抖音、下一个微信），还充满巨大的不确定性。但可以确定的是，所有参与这场游戏的人，都必须从英伟达那里购买算力（GPU），都必须使用 PyTorch 等框架，都可能需要调用 OpenAI 的 API。

算力层的公司（英伟达）：卖的是刚需中的刚需。只要 AI 在发展，就需要更多的算力。它们提供的是 “土地” 和 “能源”。
平台层的公司（云厂商、Hugging Face）：卖的是效率和标准。它们帮助淘金者更快、更省力地挖矿。它们提供的是 “高速公路” 和 “建筑规范”。
MaaS 层的公司（OpenAI、Anthropic）：卖的是核心能力。它们直接提供了最强大的 “挖掘机”，你只需要学会怎么开就行。

AI Infra，赚的相当于是整个 AI 行业发展的税。这是一个更稳定、更具确定性、也更赚钱的商业模式。

92IT

Just love IT.

每天吃透一个 AI 知识点 —— AI Infra