转载:小红书 AI产品赵哥
前言🔖
今年 AI 圈动静很大。SeeDance2.0 能用一段文字生成一段相当逼真的视频;GPT-5 对着手机就能跟你聊天,还能听出你语气里的情绪;豆包的视频聊天越来越像和真人在交互了……
大家可能会有疑惑:一两年前,AI 不是还在吭哧瘪肚的学说话吗?怎么突然长出眼睛和耳朵了?它怎么同时看到图片又听到说话,然后理解你的意思?这背后是什么原理?
这个原理叫多模态 AI(Multimodal AI),是现在热门的技术方向之一。
今天,我试图带你看看 AI 是怎么学会像人一样用多个感官来理解世界的。准备好咱可就发车了!
一、世界上最牛的多模态生物是啥?🔖
要搞懂啥是多模态,我们得先从我们自己 —— 人类 —— 身上找答案。
你有没有想过,你是如何理解苹果这个概念的?当一个婴儿第一次接触苹果时,他的学习过程是这样的:
- 眼睛看到了:一个红色的、圆圆的物体。(视觉信息)
- 手摸到了:表面是光滑的,硬硬的。(触觉信息)
- 鼻子闻到了:一股清新的果香。(嗅觉信息)
- 嘴巴尝到了:味道是甜的,带一点点酸,口感很脆。(味觉信息)
- 耳朵听到了:妈妈指着它说:“宝宝,这是苹果(Apple)”。(听觉信息,包含语言)
你看,婴儿通过眼睛、手、鼻子、嘴巴、耳朵,从四面八方接收了关于 “苹果” 的各种不同类型的信息。这些信息,在专业术语里,就叫做不同的模态(Modality)。
💡模态:
- 图像 / 视频是一种模态。
- 声音是一种模态。
- 文字是一种模态。
- 触摸、气味、温度也都是模态。
而我们人类最了不起的地方,就是我们的大脑能毫不费劲儿地把这些来自不同感官、格式完全不同的信息,瞬间融合在一起,形成一个统一的、丰富的、立体的概念 —— 苹果。
从此以后,无论是你在书上看到 “苹果” 这两个字,还是在画中看到一个苹果,或是在远处闻到苹果的香味,你脑中都会立刻浮现出关于它的一切。你甚至能把不同模态的信息联系起来,比如,你看到一张照片里有人在大口吃苹果,你就自动脑补出那清脆的 “咔嚓” 声。
我们人类,天生就是最强的多模态学习和处理系统。而对于未来的 AI,我们希望它也能拥有这种能力,让它不再是只能处理单一信息,而是能像我们一样,能够处理所有模态的信息。
二、多模态为什么这么难?🔖
既然目标是模仿人类,那 AI 在学习多模态时,遇到的最大的挑战是什么呢?
我称之为 “AI 的巴别塔困境”。
在《圣经》的传说中,人类曾经说同一种语言,想要联合起来建造通天的巴别塔。上帝为了阻止他们,变乱了他们的口音,让他们语言不通,最终计划失败。
对于 AI 来说,不同的模态,就是完全不同的语言,它们生活在各自独立的小宇宙里,底层逻辑和数据结构那简直是完全不一样:
- 图像(视觉模态):对计算机来说,一张图片就是一个由数字组成的巨大矩阵(Matrix)。每个数字代表一个像素点的颜色和亮度。它描述的是空间信息。
- 文本(语言模态):对计算机来说,一段文字是一个由字符 ID 组成的序列(Sequence)。每个 ID 对应一个字或词。它描述的是高度抽象的逻辑和语义。
- 声音(听觉模态):对计算机来说,一段声音是一个随时间变化的波形(Waveform)。它本质上是一维的时间序列信号,记录了空气压力的振动。
让一个只懂像素矩阵的 AI,去理解一段由文字序列组成的诗歌,这相当于让一个只看得懂乐谱的音乐家,去分析股票的 K 线图。它们的数据结构、信息密度、内在规律都完全不同。
所以,多模态 AI 要解决的第一个问题就是:如何打破这堵巴别塔,让图像、文本、声音这些来自不同小宇宙的信息,能够互相理解、互相交流?
三、AI 的通用语言 —— 跨模态对齐🔖
既然直接交流不通,那有没有一种办法,能让各个方面都学会一种 “世界通用语” 呢?
答案是:有!而这个通用语言,就是构建一个统一的、高维的数学空间,我们管它叫联合嵌入空间(Joint Embedding Space)或多模态共享语义空间。
别怕,我给大家翻译成大白话:你可以把这个共享空间想象成一个巨大的图书馆。
- 这个图书馆里的每一本书,都不是用具体的文字或图片写的,而是由一种叫做语义向量(Semantic Vector)构成的。一个向量,你可以简单地理解为空间中的一个点,或者一个从原点出发的箭头。
- 这个图书馆的管理员(也就是 AI 模型)立下了一个规定:所有在现实世界里描述同一个概念的东西,不管它是图片、文字还是声音,在进入这个图书馆后,都必须被转换成 “语义向量”,并且放在同一个书架、同一个位置附近。
举个例子,我们来看 “狗” 这个概念:
- 一张柯基犬的照片,经过转换,会变成一个 “语义向量”,被放在图书馆的 “A 区 1 号架” 上。
- “一只可爱的宠物狗” 这段文字,经过转换,也会变成一个语义向量,被放在 “A 区 1 号架” 的旁边。
- 一段 “汪汪” 的狗叫声,经过转换,同样会被放在 “A 区 1 号架” 的附近。
- 而一张猫的照片,或者 “猫” 这个字,它们转换后的向量,就会被放在离 “A 区 1 号架” 很远的 “B 区 8 号架” 上。
💡这个 “把不同模态的信息,映射到同一个共享语义空间,让相似概念在空间中彼此靠近,不相似概念彼此远离” 的过程,就叫做跨模态对齐(Cross-modal Alignment)
一旦这个图书馆建好了,AI 就相当于学会了通用语言。
- 图文理解:你给 AI 一张狗的照片,它把它转换成 “A 区 1 号架” 的向量。然后你问它:“这是什么?” AI 就在这个向量位置附近搜索,发现了 “狗” 这个文字向量,于是它回答你:“这是一只狗。”
- 文生图(比如 Midjourney):你给 AI 一段文字 “一个宇航员在月球上骑马”,AI 就在图书馆里找到 “宇航员”、“月球”、“马” 和 “骑” 这几种向量,把它们以一种巧妙的方式组合起来,形成一个新的语义向量位置。然后,一个叫做解码器的东西就会根据这个向量位置,把对应的画面给画出来。
- GPT-5 那样的实时交互:你把摄像头对准你的房间,同时用嘴说:“帮我找找桌上那瓶红色的水。” AI 会同时接收你的视觉画面和你的语音。它把画面转换成语义向量,把语音也转换成语义向量,在这个共享空间里一比对,就理解了你的意图,甚至可以在画面上把那瓶水给你圈出来。
所以,多模态的本质,不是让图像和文本直接对话,而是找到了一个第三方翻译 —— 共享语义空间,作为它们沟通的桥梁。
四、多模态 AI 的技术实现🔖
好了,理论我们懂了,那么在技术上,工程师们到底是怎么建造这个神奇的 “图书馆” 的呢?
这个建造过程,大致可以分为三步,就像一个标准化的施工流程:分别编码 → 对齐学习 → 融合应用。
🔹第一步:特征提取(分别编码)
在把不同信息放进图书馆之前,我们得先让它们各自 “修炼内功”,提取出精华。这个过程叫做编码(Encoding)。
你可以想象我们为 AI 请了三位老师:
- 视觉老师(Vision Encoder):专门教 AI 看图。这位老师通常是 CNN(卷积神经网络)或更先进的 ViT(Vision Transformer)。它会把一张由几百万像素组成的图片,浓缩成一个包含了几百上千个数字的 “视觉特征向量”,这个向量里浓缩了图片里的物体、场景、颜色等信息。
- 语言老师(Text Encoder):专门教 AI 读书。这位老师通常是 Transformer 架构。它会把一段话,转换成一个同样由几百上千个数字组成的 “文本特征向量”,向量里蕴含了句子的语法、语义等信息。
- 听觉老师(Audio Encoder):专门教 AI 听音。这位老师会把一段声波,先转换成一种叫做 “频谱图” 的东西(可以理解为声音的图像),然后再用类似 CNN 的结构,把它压缩成一个 “听觉特征向量”。
经过各位专科老师的预处理,我们手里的原始数据(图片、文字、声音),就都变成了格式统一的特征向量了。但这还不够,因为此时,三个老师教出来的学生,说的还是各自的方言,他们的向量还不在一个频道上。
🔹第二步:跨模态对齐(对齐学习)
这是建造图书馆最关键的一步。我们的目标是,让视觉老师教出来的 “柯基向量”,和语言老师教出来的 “柯基文字向量”,能够认出彼此。
我们用一种叫做对比学习(Contrastive Learning)的训练方法。大名鼎鼎的 CLIP(Contrastive Language-Image Pre-training)模型就是这么干的。
这个训练过程非常巧妙,有点像一个配对游戏:
- 准备海量图文对:我们从网上爬取数亿个 <图片,图片描述> 的数据对。比如,< 柯基照片,一只可爱的柯基犬 >、< 汉堡照片,一个双层牛肉汉堡 > 等等。
- 进行正负配对:在训练时,我们每次取一批数据,比如 N 个图文对。
- 对于一张柯基照片,与它配对的文字 “一只可爱的柯基犬”,就是它的正样本(Positive Sample)。
- 而这批数据里其他 N-1 张图片(比如汉堡、汽车)和 N-1 段文字,对于这张柯基照片来说,都是负样本(Negative Sample)。
- 学习目标:拉近正的,推远负的!
- 我们把图片和文字都通过各自的编码器,得到它们的特征向量。
- 然后我们告诉模型一个简单的规则:在那个共享空间里,你必须拼尽全力,把 “正样本对”(< 柯基照片,柯基文字 >)的向量,在空间中的位置拉得越近越好!同时,把 “负样本对”(< 柯基照片,汉堡文字 >)的向量,推得越远越好!
经过在数亿个样本上亿万次的 “拉近推远” 的拉扯后,模型真正理解了图像和文本之间的语义关联(注意不是死记硬背),从而构建起了那个我们想要的共享语义空间。
🔹第三步:信息融合(Fusion)
现在,所有模态的信息都被转换到同一个频道了,下面就是如何把它们融合起来,来完成特定的任务。
融合的方式也分好几种,这有点像炒菜:
- 早期融合(Early Fusion):像做大杂烩。很早就把不同模态的特征向量直接拼接在一起,然后喂给一个模型去处理。简单直接,但有时会因为信息过早混合而丢失各自的特点。
- 晚期融合(Late Fusion):像吃套餐。每个模态先各自进行深入处理,得到各自的初步结论,最后再把这些结论综合起来做最终决策。保留了各自的独特性,但可能缺乏模态间的深度交互。
- 混合 / 注意力融合(Hybrid/Attention Fusion):这是现在主流的方式。它引入了注意力机制(Attention Mechanism),它就像一个经验丰富的总指挥。在处理任务的每一步,这个总指挥都会动态判断:“现在这个阶段,是视觉信息更重要,还是听觉信息更重要?” 然后给更重要的信息分配更多的 “注意力权重”。
- 比如,当 GPT-5 看到你的笑脸,同时听到你说 “我今天太开心了”,它的注意力机制就会判断,你的笑脸和你的语音语调都在表达开心这个情绪,于是它会综合这些信息,用一种非常欢快的语气回应你。
通过这三步走战略,AI 就一步步地逐渐打开六感。
五、多模态 AI 是怎么改变我们的世界的?🔖
理解了原理,我们再回头看那些令人惊艳的应用,就会发现一切都变得顺理成章:
- 文生万物(Text-to-X)
- 文生图(Midjourney、Image2):文字在共享空间找到语义位置 → 图像解码器将其画出来。
- 文生视频(Sora、SeeDance):更复杂一点,AI 不仅要理解 “宇航员骑马”,还要理解 “骑” 这个动作的时序过程,以及 “电影感镜头” 这种风格描述,然后在共享空间中规划出一条向量变化的轨迹,再由视频解码器一帧一帧地渲染出来。
- 多模态大模型(GPT-5,Gemini)
- 你给它看、给它听、跟它说,所有输入都会被编码到那个巨大的共享语义空间。模型在这个空间里进行推理,理解你的意图,然后选择最合适的模态(语音、文字或图像)来生成输出。它就像人类的大脑,在统一的意识空间里处理所有感官信息。
- 自动驾驶
- 这可能是最高危、也最典型的多模态融合应用。车辆上的摄像头(视觉)、激光雷达 LiDAR(3D 点云)、毫米波雷达 Radar(速度和距离),就是它的多种感官。自动驾驶系统必须实时融合这些模态的信息,才能对周围环境做出准确、安全的判断。比如,摄像头在大雨天可能看不清,但毫米波雷达可以穿透雨雾,告诉你前方有障碍物。我们之前讲过自动驾驶感知的前融合、后融合,有异曲同工之妙!
- 我们每个人的生活
- 你在 App 上用的图片搜索,就是最简单的图文匹配。
- 你用剪映的AI 抠图,就是 AI 理解了视频中的人和背景这两个不同的语义概念。
- 你对手机说:“打电话给妈妈”,就是语音和通讯录文本的联动。
多模态 AI,已经悄无声息地渗透到了我们生活的方方面面。