每天吃透一个 AI 知识点 ——多模态 AI

转载：小红书 AI产品赵哥

前言🔖

今年 AI 圈动静很大。SeeDance2.0 能用一段文字生成一段相当逼真的视频；GPT-5 对着手机就能跟你聊天，还能听出你语气里的情绪；豆包的视频聊天越来越像和真人在交互了……

大家可能会有疑惑：一两年前，AI 不是还在吭哧瘪肚的学说话吗？怎么突然长出眼睛和耳朵了？它怎么同时看到图片又听到说话，然后理解你的意思？这背后是什么原理？

这个原理叫多模态 AI（Multimodal AI），是现在热门的技术方向之一。

今天，我试图带你看看 AI 是怎么学会像人一样用多个感官来理解世界的。准备好咱可就发车了！

一、世界上最牛的多模态生物是啥？🔖

要搞懂啥是多模态，我们得先从我们自己 —— 人类 —— 身上找答案。

你有没有想过，你是如何理解苹果这个概念的？当一个婴儿第一次接触苹果时，他的学习过程是这样的：

眼睛看到了：一个红色的、圆圆的物体。（视觉信息）
手摸到了：表面是光滑的，硬硬的。（触觉信息）
鼻子闻到了：一股清新的果香。（嗅觉信息）
嘴巴尝到了：味道是甜的，带一点点酸，口感很脆。（味觉信息）
耳朵听到了：妈妈指着它说：“宝宝，这是苹果（Apple）”。（听觉信息，包含语言）

你看，婴儿通过眼睛、手、鼻子、嘴巴、耳朵，从四面八方接收了关于 “苹果” 的各种不同类型的信息。这些信息，在专业术语里，就叫做不同的模态（Modality）。

💡模态：

图像 / 视频是一种模态。
声音是一种模态。
文字是一种模态。
触摸、气味、温度也都是模态。

而我们人类最了不起的地方，就是我们的大脑能毫不费劲儿地把这些来自不同感官、格式完全不同的信息，瞬间融合在一起，形成一个统一的、丰富的、立体的概念 —— 苹果。

从此以后，无论是你在书上看到 “苹果” 这两个字，还是在画中看到一个苹果，或是在远处闻到苹果的香味，你脑中都会立刻浮现出关于它的一切。你甚至能把不同模态的信息联系起来，比如，你看到一张照片里有人在大口吃苹果，你就自动脑补出那清脆的 “咔嚓” 声。

我们人类，天生就是最强的多模态学习和处理系统。而对于未来的 AI，我们希望它也能拥有这种能力，让它不再是只能处理单一信息，而是能像我们一样，能够处理所有模态的信息。

二、多模态为什么这么难？🔖

既然目标是模仿人类，那 AI 在学习多模态时，遇到的最大的挑战是什么呢？

我称之为 “AI 的巴别塔困境”。

在《圣经》的传说中，人类曾经说同一种语言，想要联合起来建造通天的巴别塔。上帝为了阻止他们，变乱了他们的口音，让他们语言不通，最终计划失败。

对于 AI 来说，不同的模态，就是完全不同的语言，它们生活在各自独立的小宇宙里，底层逻辑和数据结构那简直是完全不一样：

图像（视觉模态）：对计算机来说，一张图片就是一个由数字组成的巨大矩阵（Matrix）。每个数字代表一个像素点的颜色和亮度。它描述的是空间信息。
文本（语言模态）：对计算机来说，一段文字是一个由字符 ID 组成的序列（Sequence）。每个 ID 对应一个字或词。它描述的是高度抽象的逻辑和语义。
声音（听觉模态）：对计算机来说，一段声音是一个随时间变化的波形（Waveform）。它本质上是一维的时间序列信号，记录了空气压力的振动。

让一个只懂像素矩阵的 AI，去理解一段由文字序列组成的诗歌，这相当于让一个只看得懂乐谱的音乐家，去分析股票的 K 线图。它们的数据结构、信息密度、内在规律都完全不同。

所以，多模态 AI 要解决的第一个问题就是：如何打破这堵巴别塔，让图像、文本、声音这些来自不同小宇宙的信息，能够互相理解、互相交流？

三、AI 的通用语言 —— 跨模态对齐🔖

既然直接交流不通，那有没有一种办法，能让各个方面都学会一种 “世界通用语” 呢？

答案是：有！而这个通用语言，就是构建一个统一的、高维的数学空间，我们管它叫联合嵌入空间（Joint Embedding Space）或多模态共享语义空间。

别怕，我给大家翻译成大白话：你可以把这个共享空间想象成一个巨大的图书馆。

这个图书馆里的每一本书，都不是用具体的文字或图片写的，而是由一种叫做语义向量（Semantic Vector）构成的。一个向量，你可以简单地理解为空间中的一个点，或者一个从原点出发的箭头。
这个图书馆的管理员（也就是 AI 模型）立下了一个规定：所有在现实世界里描述同一个概念的东西，不管它是图片、文字还是声音，在进入这个图书馆后，都必须被转换成 “语义向量”，并且放在同一个书架、同一个位置附近。

举个例子，我们来看 “狗” 这个概念：

一张柯基犬的照片，经过转换，会变成一个 “语义向量”，被放在图书馆的 “A 区 1 号架” 上。
“一只可爱的宠物狗” 这段文字，经过转换，也会变成一个语义向量，被放在 “A 区 1 号架” 的旁边。
一段 “汪汪” 的狗叫声，经过转换，同样会被放在 “A 区 1 号架” 的附近。
而一张猫的照片，或者 “猫” 这个字，它们转换后的向量，就会被放在离 “A 区 1 号架” 很远的 “B 区 8 号架” 上。

💡这个 “把不同模态的信息，映射到同一个共享语义空间，让相似概念在空间中彼此靠近，不相似概念彼此远离” 的过程，就叫做跨模态对齐（Cross-modal Alignment）

一旦这个图书馆建好了，AI 就相当于学会了通用语言。

图文理解：你给 AI 一张狗的照片，它把它转换成 “A 区 1 号架” 的向量。然后你问它：“这是什么？” AI 就在这个向量位置附近搜索，发现了 “狗” 这个文字向量，于是它回答你：“这是一只狗。”
文生图（比如 Midjourney）：你给 AI 一段文字 “一个宇航员在月球上骑马”，AI 就在图书馆里找到 “宇航员”、“月球”、“马” 和 “骑” 这几种向量，把它们以一种巧妙的方式组合起来，形成一个新的语义向量位置。然后，一个叫做解码器的东西就会根据这个向量位置，把对应的画面给画出来。
GPT-5 那样的实时交互：你把摄像头对准你的房间，同时用嘴说：“帮我找找桌上那瓶红色的水。” AI 会同时接收你的视觉画面和你的语音。它把画面转换成语义向量，把语音也转换成语义向量，在这个共享空间里一比对，就理解了你的意图，甚至可以在画面上把那瓶水给你圈出来。

所以，多模态的本质，不是让图像和文本直接对话，而是找到了一个第三方翻译 —— 共享语义空间，作为它们沟通的桥梁。

四、多模态 AI 的技术实现🔖

好了，理论我们懂了，那么在技术上，工程师们到底是怎么建造这个神奇的 “图书馆” 的呢？

这个建造过程，大致可以分为三步，就像一个标准化的施工流程：分别编码 → 对齐学习 → 融合应用。

🔹第一步：特征提取（分别编码）

在把不同信息放进图书馆之前，我们得先让它们各自 “修炼内功”，提取出精华。这个过程叫做编码（Encoding）。

你可以想象我们为 AI 请了三位老师：

视觉老师（Vision Encoder）：专门教 AI 看图。这位老师通常是 CNN（卷积神经网络）或更先进的 ViT（Vision Transformer）。它会把一张由几百万像素组成的图片，浓缩成一个包含了几百上千个数字的 “视觉特征向量”，这个向量里浓缩了图片里的物体、场景、颜色等信息。
语言老师（Text Encoder）：专门教 AI 读书。这位老师通常是 Transformer 架构。它会把一段话，转换成一个同样由几百上千个数字组成的 “文本特征向量”，向量里蕴含了句子的语法、语义等信息。
听觉老师（Audio Encoder）：专门教 AI 听音。这位老师会把一段声波，先转换成一种叫做 “频谱图” 的东西（可以理解为声音的图像），然后再用类似 CNN 的结构，把它压缩成一个 “听觉特征向量”。

经过各位专科老师的预处理，我们手里的原始数据（图片、文字、声音），就都变成了格式统一的特征向量了。但这还不够，因为此时，三个老师教出来的学生，说的还是各自的方言，他们的向量还不在一个频道上。

🔹第二步：跨模态对齐（对齐学习）

这是建造图书馆最关键的一步。我们的目标是，让视觉老师教出来的 “柯基向量”，和语言老师教出来的 “柯基文字向量”，能够认出彼此。

我们用一种叫做对比学习（Contrastive Learning）的训练方法。大名鼎鼎的 CLIP（Contrastive Language-Image Pre-training）模型就是这么干的。

这个训练过程非常巧妙，有点像一个配对游戏：

准备海量图文对：我们从网上爬取数亿个 <图片，图片描述> 的数据对。比如，< 柯基照片，一只可爱的柯基犬 >、< 汉堡照片，一个双层牛肉汉堡 > 等等。
进行正负配对：在训练时，我们每次取一批数据，比如 N 个图文对。

对于一张柯基照片，与它配对的文字 “一只可爱的柯基犬”，就是它的正样本（Positive Sample）。
而这批数据里其他 N-1 张图片（比如汉堡、汽车）和 N-1 段文字，对于这张柯基照片来说，都是负样本（Negative Sample）。

学习目标：拉近正的，推远负的！

我们把图片和文字都通过各自的编码器，得到它们的特征向量。
然后我们告诉模型一个简单的规则：在那个共享空间里，你必须拼尽全力，把 “正样本对”（< 柯基照片，柯基文字 >）的向量，在空间中的位置拉得越近越好！同时，把 “负样本对”（< 柯基照片，汉堡文字 >）的向量，推得越远越好！

经过在数亿个样本上亿万次的 “拉近推远” 的拉扯后，模型真正理解了图像和文本之间的语义关联（注意不是死记硬背），从而构建起了那个我们想要的共享语义空间。

🔹第三步：信息融合（Fusion）

现在，所有模态的信息都被转换到同一个频道了，下面就是如何把它们融合起来，来完成特定的任务。

融合的方式也分好几种，这有点像炒菜：

早期融合（Early Fusion）：像做大杂烩。很早就把不同模态的特征向量直接拼接在一起，然后喂给一个模型去处理。简单直接，但有时会因为信息过早混合而丢失各自的特点。
晚期融合（Late Fusion）：像吃套餐。每个模态先各自进行深入处理，得到各自的初步结论，最后再把这些结论综合起来做最终决策。保留了各自的独特性，但可能缺乏模态间的深度交互。
混合 / 注意力融合（Hybrid/Attention Fusion）：这是现在主流的方式。它引入了注意力机制（Attention Mechanism），它就像一个经验丰富的总指挥。在处理任务的每一步，这个总指挥都会动态判断：“现在这个阶段，是视觉信息更重要，还是听觉信息更重要？” 然后给更重要的信息分配更多的 “注意力权重”。
- 比如，当 GPT-5 看到你的笑脸，同时听到你说 “我今天太开心了”，它的注意力机制就会判断，你的笑脸和你的语音语调都在表达开心这个情绪，于是它会综合这些信息，用一种非常欢快的语气回应你。

通过这三步走战略，AI 就一步步地逐渐打开六感。

五、多模态 AI 是怎么改变我们的世界的？🔖

理解了原理，我们再回头看那些令人惊艳的应用，就会发现一切都变得顺理成章：

文生万物（Text-to-X）

文生图（Midjourney、Image2）：文字在共享空间找到语义位置 → 图像解码器将其画出来。
文生视频（Sora、SeeDance）：更复杂一点，AI 不仅要理解 “宇航员骑马”，还要理解 “骑” 这个动作的时序过程，以及 “电影感镜头” 这种风格描述，然后在共享空间中规划出一条向量变化的轨迹，再由视频解码器一帧一帧地渲染出来。

多模态大模型（GPT-5，Gemini）

你给它看、给它听、跟它说，所有输入都会被编码到那个巨大的共享语义空间。模型在这个空间里进行推理，理解你的意图，然后选择最合适的模态（语音、文字或图像）来生成输出。它就像人类的大脑，在统一的意识空间里处理所有感官信息。

自动驾驶

这可能是最高危、也最典型的多模态融合应用。车辆上的摄像头（视觉）、激光雷达 LiDAR（3D 点云）、毫米波雷达 Radar（速度和距离），就是它的多种感官。自动驾驶系统必须实时融合这些模态的信息，才能对周围环境做出准确、安全的判断。比如，摄像头在大雨天可能看不清，但毫米波雷达可以穿透雨雾，告诉你前方有障碍物。我们之前讲过自动驾驶感知的前融合、后融合，有异曲同工之妙！

我们每个人的生活

你在 App 上用的图片搜索，就是最简单的图文匹配。
你用剪映的AI 抠图，就是 AI 理解了视频中的人和背景这两个不同的语义概念。
你对手机说：“打电话给妈妈”，就是语音和通讯录文本的联动。

多模态 AI，已经悄无声息地渗透到了我们生活的方方面面。

92IT

Just love IT.

每天吃透一个 AI 知识点 ——多模态 AI