AI

每天吃透一个 AI 知识点 —— AI Infra

转载:小红书 AI产品赵哥

前言🔖


随着今年年初智能体的爆火,AI 应用井喷式发展。我们最近聊了很多 AI 相关的话题,不知道大家有没有注意到一个在 AI 聚光灯边缘的一个词 ——AI Infra。

Infra,是 Infrastructure(基础设施)的缩写。所以,AI Infra,就是人工智能基础设施

一听到 “基础设施”,你可能立刻想到了公路、桥梁、发电站,感觉是个宏大的、离我们很遥远的土木工程概念。

是的,你的直觉是对的!AI Infra,正是支撑起我们今天所看到的一切 AI 魔法(从 ChatGPT 到 Midjourney)得以运转的、数字世界的 “公路、桥梁和发电站”。

你是否曾经有过这样的疑问:

  • 为什么英伟达(NVIDIA)这家卖显卡的公司,市值能一度超越苹果、微软,成为世界南波万?它到底卖的是什么?
  • 训练一个像 GPT-5.2 这样的大模型,到底需要消耗多少资源?真的像传说中那样,要烧掉一座发电站的电吗?
  • 为什么有时候用 AI 画图,要排队等半天?为什么 ChatGPT 在用户量大的时候会瘫痪?这背后是什么在堵车?

今天,咱们来看看整个 AI 行业,谁是淘金者,谁是卖铲子的。

  

一、AI 淘金热 —— 谁在淘金?谁在卖铲子?🔖


想象一下,我们正处在一场史无前例的 AI 淘金热中。

  • 淘金者 (The Gold Miners):他们是那些我们每天都在使用的、光鲜亮丽的 AI 应用。
    • ChatGPT:在知识的金矿里淘金。
    • Midjourney:在创意的金矿里淘金。
    • 各种 AI Agent:在效率的金矿里淘金。
    • 他们冲在第一线,直接面对用户,试图挖掘出能改变世界的金子(杀手级应用)。
  • 卖铲人 (The Shovel Sellers):他们不直接淘金,而是为所有淘金者提供所必需的工具和服务。
    • 铁铲和镐头:这就是我们今天要聊的 AI Infra
    • 历史上,在 19 世纪的加州淘金热中,真正赚得盆满钵满、并诞生了像李维斯(Levi’s)这样百年企业的,往往是那些卖铲子、卖牛仔裤、开餐馆的人。
    • 因为淘金有风险,你可能挖一辈子也挖不到金子。但无论谁去淘金,他都必须买一把铲子。

AI Infra,就是这场 AI 淘金热中的铲子、镐头、矿车、炸药、地图、牛仔裤,甚至是瓶装水和工作餐。它是所有上层 AI 应用得以存在和运行的必要非充分条件。没有它,一切 AI 的奇迹都是空中楼阁。

  

二、AI 基建版图都包含哪些?🔖


那么,这套庞大的 AI 基础设施到底包含哪些部分呢?我们可以把它分为一个三层金字塔结构:算力层、平台层、和模型即服务(MaaS)层。

🔹第一层:算力层:发电站和炼钢厂

这是整个 AI Infra 最底层、最硬核的部分。它为 AI 提供了最基础的能源 —— 计算能力。

  • 核心组件 AI 芯片 (AI Accelerators)
    • GPU (Graphics Processing Unit, 图形处理器):这就是英伟达的印钞机。GPU 最初是为游戏设计的,因为它拥有数千个小型核心,非常擅长并行计算(同时做大量简单的数学题)。而训练 AI 模型,本质上就是海量的、并行的矩阵运算。GPU 的这个特性,恰好完美地契合了 AI 的需求。英伟达的 A100、H100 芯片,就是目前最抢手的 AI 燃料。
  • TPU (Tensor Processing Unit, 张量处理器):谷歌为自己的 AI 框架 TensorFlow 量身定制的芯片,不对外卖,主要供自家使用。
  • NPU (Neural-network Processing Unit, 神经网络处理器):更多出现在手机、汽车等终端设备上,用于在设备本地高效运行 AI 模型。

配套设施:

  • 高速网络 (High-Speed Interconnect):训练一个大模型,通常需要把成千上万个 GPU 连接起来,组成一个超级计算机。这些 GPU 之间需要以极高的速度交换海量数据。像英伟达的 NVLink 和 InfiniBand 网络技术,就是连接这些 GPU 的神经网络,其重要性不亚于 GPU 本身。
  • 数据中心 (Data Center):容纳这些海量 GPU、网络设备,并提供稳定供电、散热的巨大物理空间。一个现代化的 AI 数据中心。

算力层,就是 AI 世界的物理层。它决定了 AI 发展的天花板。没有足够强大的、可用的算力,再好的算法也只是纸上谈兵。这就是为什么芯片战争是当前大国科技博弈的最前沿。

  

🔹第二层:平台层 高速公路网和建筑工具

光有发电站和钢铁还不够,我们还需要把它们变成能用的东西。平台层,就是为 AI 开发者提供一套完整的工具链和服务,让他们可以更方便、更高效地建造 AI 应用。

这一层非常庞杂,我们可以把它比作一个城市建造工具包,里面包含:

  • 深度学习框架 (Deep Learning Frameworks):
    • 代表:TensorFlow (谷歌出品)、PyTorch (Meta 出品)。
    • 作用:它们是 AI 算法工程师的语言。这些框架将复杂的底层数学运算,封装成了开发者容易使用的 API。开发者不再需要从头开始写矩阵乘法,可以直接调用一个函数来构建神经网络。这极大地降低了 AI 开发的门槛。
  • MLOps 平台 (Machine Learning Operations):
    • 作用:MLOps 负责管理一个 AI 模型从出生到退休的全生命周期。它就像一套现代化的 “建筑项目管理系统”,包括:
      • 数据管理:如何存储、清洗、标注海量的训练数据?
      • 模型训练:如何在几千个 GPU 上,高效地协调训练任务?
      • 模型部署:如何将训练好的模型,发布到线上,让 APP 可以调用?
      • 模型监控:模型上线后,如何监控,它的表现如何?有没有变笨?是否需要重新训练?
    • 代表:AWS SageMaker、Google Vertex AI、Azure Machine Learning 等云服务平台,以及众多创业公司。
  • 模型与数据集托管平台 (Model & Dataset Hubs):
    • 代表:Hugging Face、GitHub。
    • 作用:Hugging Face 被称为 “AI 界的 GitHub”。全世界的开发者可以把他们训练好的模型、准备好的数据集,上传到这里,供其他人下载和使用。这极大地促进了 AI 社区的开源与协作,避免了大家重复造轮子。

平台层,是连接 “原始算力” 和 “上层应用” 的桥梁。它让建造 AI 这件事,从手工作坊式的刀耕火种,变成了工业化、标准化的 “流水线作业”。

  

🔹第三层:模型即服务层(MaaS)自来水和电力网

这是最新出现,也是离我们普通用户最近的一层。

  • 核心思想:绝大多数公司和开发者,其实并不需要自己去从头训练一个巨大的基础模型。这既昂贵又没必要。他们需要的,只是使用这些强大模型的能力。
  • MaaS 层做的,就是把那些顶尖的基础大模型(比如 GPT-5.2, Llama 3, Claude 4.5),通过 API 的方式,打包成一种像自来水或电力一样的公共服务,并且按流量计费。
  • 代表:OpenAI API、Anthropic API、Google Gemini API,以及国内的百度千帆、阿里通义千问等
  • 工作模式:
    • a.一个创业公司想开发一个 AI 法律助手 APP。
    • b.它不需要自己训练一个法律大模型。
    • c.它只需要在自己的 APP 后端,去调用 OpenAI 的 API。当用户在 APP 里提问时,APP 就把问题通过 API 发送给 GPT-5.2,然后把 GPT-5.2 的回答再显示给用户。
    • d.这家公司只需要为它调用的 API 次数(按 Token 量)付费,就像我们为用了多少度电付费一样。

MaaS 层,是一次行业上的分工。它让擅长 “炼大模型” 的 “炼大模型”(这需要巨大的算力和资本投入),擅长 “做应用” 的 “做应用”。这极大地释放了 AI 应用的创新活力。

三、为什么说卖铲子的更赚钱?—— AI Infra 的商业逻辑🔖


现在,我们可以回到最初的那个问题了:为什么英伟达这么值钱?

因为在当前这个 AI 应用的战国时代,谁能成为最终的淘金王(比如下一个抖音、下一个微信),还充满巨大的不确定性。但可以确定的是,所有参与这场游戏的人,都必须从英伟达那里购买算力(GPU),都必须使用 PyTorch 等框架,都可能需要调用 OpenAI 的 API。

  • 算力层的公司(英伟达):卖的是刚需中的刚需。只要 AI 在发展,就需要更多的算力。它们提供的是 “土地” 和 “能源”。
  • 平台层的公司(云厂商、Hugging Face):卖的是效率和标准。它们帮助淘金者更快、更省力地挖矿。它们提供的是 “高速公路” 和 “建筑规范”。
  • MaaS 层的公司(OpenAI、Anthropic):卖的是核心能力。它们直接提供了最强大的 “挖掘机”,你只需要学会怎么开就行。

AI Infra,赚的相当于是整个 AI 行业发展的税。这是一个更稳定、更具确定性、也更赚钱的商业模式。