CNN+Transformer 卷积与注意力的强强联合

转载小红书：AI产品赵哥

前言 🔖

在过去十年，如果说 AI 的视觉世界有一位无可争议的 Number 1，那毫无疑问一定是 CNN（卷积神经网络）。从你手机上的人脸解锁，到马路上飞驰的自动驾驶汽车，它的身影无处不在，构建了我们今天智能生活的基石。

有同学提出来想让我讲讲 CNN 这几年的发展，以及在大模型时代是怎么落地的。这就不得不提到大语言模型时代的新贵 ——Transformer！

今天，我们就来深入这场 AI 视觉领域的权利争夺：CNN、Transformer。它们分别代表了两种截然不同的工作模式：一个是精于局部建模的微观侦探，一个是擅长全局关联的宏观战略家。

这篇笔记，将从 “CNN vs Transformer” 到 “CNN + Transformer”，我们将一起探索：

CNN 这位老红人，为何会受到挑战？它的 “阿喀琉斯之踵” 在哪里？
Transformer 这位新贵，又是凭借什么能力实现了跨界打击？
两大流派的比拼：从 VIT 到 ConvNeXt 的华山论剑。
最终的未来：CNN+Transformer，强强联合的混合模型时代。

CNN 和 Transformer主要用于人工智能领域的 “信息处理”，不仅限于图像处理，也覆盖自然语言处理等场景，我用通俗的方式解释它们的核心用途：

🔹CNN（卷积神经网络）：最初是为图像处理而生，后来拓展到其他领域

它的核心能力是 **“高效提取局部特征”，最经典的用途是图像处理 **：

比如识别图片里的猫 / 狗（图像分类）、定位图片里的汽车（目标检测）、给图片里的每个像素打标签（语义分割）；
你手机的 “人脸解锁”、自动驾驶的 “识别道路标线”，背后都有 CNN 的身影。

后来也被用到其他领域：比如处理语音信号（提取音频的局部频谱特征）、分析传感器数据（比如工业设备的振动信号）。

🔹Transformer：最初是为自然语言处理设计，现在火遍图像处理等领域

它的核心能力是 **“捕捉全局 / 长距离的关联”**，用途更广泛：

自然语言处理（NLP）：这是它的 “老家”—— 比如 ChatGPT 这类大语言模型、机器翻译、文本摘要，都是用 Transformer 做的；
图像处理：后来被用到图像领域（比如 ViT 模型），能更好地理解图片里 “远处物体的关系”（比如图片里 “左边的猴子” 和 “右边的香蕉” 的关联）；
多模态任务：比如 “图文生成”（输入文字生成图片）、“视频理解”（分析视频里的动作关联），都依赖 Transformer 的全局建模能力。

🔹总结

CNN擅长处理 “局部细节多、关联近” 的信息，所以最初火在图像处理；
Transformer擅长处理 “全局关联强、距离远” 的信息，所以从 NLP 跨界到了图像、视频等领域；
现在两者经常 “联手”（比如 CNN 负责提取图像的局部特征，Transformer 负责整合全局关联），是 AI 领域的两大核心技术。

现在主流的大模型（比如 ChatGPT、文心一言、Llama 等），核心架构是 Transformer，几乎不用 CNN。

原因很简单：大模型主要处理自然语言（文本），而文本是 “序列型数据”—— 每个词的含义和它前后的词都有关联（甚至长距离关联，比如一篇文章开头和结尾的逻辑），而 Transformer 的 “全局注意力机制” 刚好擅长捕捉这种长距离关联。

而 CNN 因为天生擅长 “局部特征”，但不擅长长距离关联（比如处理长文本时，很难把开头和结尾的信息联系起来），所以基本不会被用在大语言模型的核心架构里。

不过，在多模态大模型（比如能同时处理文字和图片的模型，比如 GPT-4V）中，会结合 CNN 和 Transformer：

先用 CNN 提取图片的局部特征（比如纹理、边缘）；
再把这些特征传给 Transformer，和文字信息一起做全局关联处理。

🔹总结：

纯文本大模型：核心是 Transformer，不用 CNN；
多模态大模型：会用 CNN 处理图片 / 视频的局部特征，再用 Transformer 做全局融合。

一、CNN—— 经验丰富的微观侦探 🔖

要理解这场战争的起因，我们必须先回到王者 CNN 的工作现场，看看这位经验丰富的 “微观侦探” 是如何工作的。这部分我们已经在《CNN》里详细阐述，这里简单复习，不做过多详述。

🔹1．CNN 的核心工作方式：从细节中拼凑真相

想象一下，一张复杂的图片，就是一个等待被破解的案发现场。CNN 侦探并不会一上来就试图看清全貌，他极其严谨和有条理，手持一个核心工具 —— 放大镜（卷积核），进行着细致入微的勘察。

第一步：发现基础线索（浅层特征）◦ 侦探首先会将放大镜对准现场的各个角落，一小块一小块地扫描。在这些极小的局部区域里，他能发现一些最基础的物理线索，比如：一条笔直的边缘、一个尖锐的拐角、一块均匀的颜色、一片重复的纹理。这些，就是 CNN 提取的底层特征。
第二步：组合线索（深层特征）◦ 这些零散的线索被记录下来，向上汇报给他的上级侦探（更深层的网络）。这位上级侦探，不再关注单一的边缘或颜色，而是将下属们发现的基础线索进行组合。他发现：“一个圆形的边缘” 和 “一个高光的斑点” 组合在一起，好像是眼睛；“几条平行的直线” 和 “一个深色的矩形” 组合在一起，看起来像车窗。通过这种方式，网络从局部细节中，逐渐构建出更复杂、更具语义的部件。
第三步：形成结论（分类 / 决策）◦ 经过层层的信息汇总和推理，报告最终递交到了最高级的侦探长（全连接层）手中。侦探长审视着所有高级线索的组合 ——“有眼睛、有鼻子、有毛茸茸的轮廓”，最终一锤定音，得出结论：“报告，案发现场发现一只猫！”

🔹2．CNN 的优势：强大的归纳偏置（Inductive Bias）

CNN 侦探之所以如此高效和成功，是因为在他的基因里，被植入了两条关于视觉世界的、颠扑不破的先验假设。这套祖传的办案常识，就是归纳偏置（Inductive Bias）。

天赋一：空间局部性（Locality）◦ 侦探天生就信奉一条黄金法则：“一个物体的组成部分，通常都离得不远”。一只猫的眼睛和鼻子是相邻的，而不是一只眼睛在图片左上角，另一只在右下角。因此，他的放大镜（卷积核）只关注一小块局部区域，这使得他的勘察工作极其高效，不会浪费精力在毫无关联的遥远像素上。
天赋二：平移不变性（Translation Invariance）◦ 侦探的放大镜是标准化的。他有一套专门用来识别眼睛的放大镜，无论这只眼睛出现在图片的哪个位置，他都能用同一套工具将其识别出来。这种 “一招鲜，吃遍天” 的能力，使得模型天然地具有了位置的泛化能力，极大地减少了需要学习的参数量。

正是因为这些强大的天赋，CNN 在处理图像时，学习效率极高，对数据量的需求也相对友好。它就像一个天生就懂图像结构的学生，学得又快又好。

🔹3．CNN 的劣势：被局部视野所困

然而，成也萧何，败也萧何。侦探的优点，也恰恰是他的缺点。他过于专注于局部细节，导致他缺乏全局视野。

有限的感受野：侦探的放大镜视野是有限的。虽然通过层层上报（堆叠卷积层），高层的侦探长能间接地了解到整个案发现场的信息，但信息在冗长的传递过程中，可能会被稀释或扭曲。他很难像我们人类一样，一眼就捕捉到画面两端遥远物体之间的直接联系。

长距离依赖捕捉困难：◦ 想象一张图片，左边是一只拿着香蕉的猴子，右边是一个人。我们要想理解这张图的全部含义，需要建立猴子和香蕉之间的吃的关系，以及猴子和人之间的互动关系。◦ 对于 CNN 侦探来说，这太难了！猴子和香蕉在他的视野里离得太远，他需要经过非常非常多的信息传递步骤，才能勉强将这两者联系起来，而且这种联系是间接且微弱的。

CNN 的这种近视眼特性，在很多需要深刻理解全局上下文的复杂场景中，成为了其性能的瓶颈。这也为后来 Transformer 的跨界入侵，埋下了伏笔。

二、Transformer—— 洞察全局的宏观战略家 🔖

如果说 CNN 是微观侦探，那么 Transformer 则是一位画风完全不同的宏观战略家。他根本不屑于使用放大镜，而是直接站在高山之巅，俯瞰整个战场。

🔹1．Transformer 的工作方式：全局信息的瞬时交互

这位战略家处理情报（一张图片）的方式，简直是简单粗暴到了极致，但却非常有效：

第一步：战场网格化（Image to Patches）◦ 他首先拿出一把快刀，将整个战场地图（图片）干净利落地切分成一个个固定大小的网格块（Patches），比如 16×16 像素一块。对于他来说，一个网格块，就是一个需要被理解的基础情报单元。他把这些情报单元拉成一排，就像一队士兵。

第二步：全员信息广播（Self-Attention）◦ 接下来，是见证奇迹的时刻。战略家启动了一套神奇的心灵感应系统，这套系统的学名，就是自注意力机制（Self-Attention）。◦ 在一瞬间，战场上的每一个情报单元，都能同时与所有其他情报单元（包括它自己）进行一次深度的信息交换。没有距离限制，没有先后顺序，一切都是并行的、瞬时的。
第三步：建立全局关联（Update Representation）◦ 通过这次全员广播，每一个情报单元都立刻知道了自己与全场其他所有单元的关联度或重要性。比如，猴子头这个单元，会立刻发现香蕉那个单元与它自己高度相关，即使它们在地图上相距甚远。◦ 基于这个关联度，每个单元都会吸收融合来自全局的信息，形成一个全新的、包含了丰富上下文的自我认知。

🔹2．Transformer 的魔法：自注意力机制（Self-Attention）

这个神奇的 “心灵感应系统” 是如何工作的呢？

核心思想：一句话：“我” 的最终含义，不应该只由 “我” 自己决定，而应该由 “我” 与 “全局所有其他人” 的关系来共同定义，并且这个关系是动态计算的。
Q/K/V 的三重身份比喻：为了实现这一点，每一个情报单元（Patch）都被赋予了三种身份：

◦ Query（Q）- 我的提问：代表了我主动去寻找关联的意图。“我应该关注谁？”

◦ Key（K）- 我的标签：代表了我的身份标识，供他人查询匹配。“我是谁，我有什么特点？”

◦ Value（V）- 我的内涵：代表了我能提供的实际信息。“我的具体情报是什么？”

计算过程：每一个单元的 “提问 Q”，都会去和所有单元的 “标签 K” 进行一次 “匹配度” 计算（点积），从而得到一组注意力权重。这组权重，就代表了 “我” 对 “全局所有人” 的关注度分配。最后，根据这组权重，去加权求和所有单元的内涵 V，就得到了一个融合了全局信息的新表示。
多头注意力（Multi-Head Attention）：更绝的是，战略家还不止一个 “心灵感应系统”。他会同时开启多个（比如 12 个）平行的通信频道，每个频道都独立进行一次自注意力计算。这就像情报员们从军事、经济、文化等多个不同角度去分析彼此的关系，最终得到的信息自然更加全面和深刻。

🔹3．Transformer 的代价：无知者无畏

战略家虽然视野开阔，法力无边，但他也有致命的弱点 —— 他是一个外行，他没有任何关于图像的先验知识（归纳偏置）。

无序性：在他眼里，一张图片就是一堆杂乱无序的网格块。他不知道相邻的块在空间上更近，也不知道物体可以平移。为了弥补这一点，我们必须人为地为每个网格块，添加一个位置编码（Positional Encoding）的地址标签，告诉他每个块的原始位置。
数据饥渴：因为无知，所以他必须从零开始，自己悟出那些 CNN 天生就懂的图像规律（比如局部性）。这使得他极其贪婪，需要海量的、令人难以想象的数据（通常是上亿甚至几十亿张图片）来进行预训练，才能发挥出真正的威力。
计算昂贵：全局注意力的计算复杂度是序列长度的平方，对于高分辨率图像来说，计算开销巨大。

三、巅峰对决与思想交锋 🔖

当侦探与战略家相遇，一场关于 AI 视觉未来的路线之争就此拉开序幕。

🔹1．第一回合：ViT 的暴力美学

2020 年，Google Brain 团队发表了里程碑式的论文 Vision Transformer（ViT）。他们做了一个极其暴力的实验：将一个几乎未经修改的、纯粹的 NLP 领域的 Transformer 模型，直接应用到图像分类上。

结果：在 Google 内部一个巨大的、未公开的私有数据集（JFT-300M，包含 3 亿张图片）上进行预训练后，ViT 的性能首次超越了当时最顶尖的 CNN 模型。
影响：这篇论文如同一颗重磅炸弹，彻底引爆了整个 CV 领域。它粗暴但有效地证明了：只要数据管够，所谓的归纳偏置并非不可或缺，Transformer 强大的全局建模能力足以碾压一切。CNN 已死的论调，第一次被响亮地提出。

🔹2．第二回合：改良与反击

ViT 的成功，激发了学术界和工业界的巨大热情，大家开始从两个方向进行探索。

Transformer 的融合派 – Swin Transformer 的崛起：

◦ 研究者们很快意识到，纯粹的全局注意力计算代价太大，且缺乏局部建模能力。微软亚洲研究院提出的 Swin Transformer 巧妙地引入了类似 CNN 的局部窗口思想。

◦ 比喻：战略家发现，每次都让全军进行 “心灵感应” 太耗费精力。他决定先让每个班组（小窗口）内部充分交流（窗口内自注意力），然后再派联络员在班组之间传递信息（通过 “窗口移位” 实现跨窗口连接）。

◦ 评价：Swin Transformer 兼具了 Transformer 的强大和 CNN 的效率，迅速成为各大视觉任务榜单的屠榜者，也成为了后续许多视觉模型的基础架构。

CNN 的保守派 – ConvNeXt 的绝地反击：

◦ 面对 Transformer 的咄咄之愈，另一批坚守 CNN 阵营的科学家（包括 ResNet 的作者之一何恺明）发出了灵魂拷问：CNN 真的不行了吗？还是我们的训练方法和架构设计已经过时了？

◦ 他们做了一件非常有意思的事：他们仔细研究了 Swin Transformer 的架构，将其成功的设计元素（如更大的卷积核、新的激活函数、更优的训练策略等）反向应用到一个经典的 ResNet 上，进行了一次彻底的现代化改造。

◦ 惊人结果：这个脱胎换骨的纯 CNN 架构 ——ConvNeXt，在各项指标上，再次追平甚至反超了 Swin Transformer。

◦ 评价：这有力地证明了廉颇未老！卷积这个操作，本身依然极其强大和高效，其潜力远未被挖掘干净。CNN 的王座，似乎又被夺了回来。

四、强强联合 ——CNN+Transformer 混合模型的时代🔖

经过几轮你来我往的神仙打架，尘埃落定后，大家逐渐达成了一个深刻的共识：CNN 和 Transformer 并非你死我活的对立关系，而是优势互补的最佳拍档。

CNN 擅长：在网络浅层，利用其高效的归纳偏置，快速、低成本地提取图像底层的、局部的视觉特征（纹理、边缘等）。它是最好的先锋侦察兵。
Transformer 擅长：在网络深层，接过 CNN 提取出的高级特征情报，进行全局的、长距离的语义关系建模。它是最好的总指挥。

于是，联姻的时代到来了。混合架构（Hybrid Architectures）应运而生，旨在将侦探的细致和战略家的视野完美结合。

模式一：CNN 做主干，Transformer 做头

◦ 初学者理解：让侦探团队（CNN 主干网络）先去一线搜集所有线索并整理成高级报告，然后一股脑儿交给战略指挥部（Transformer Head）进行最终的全局分析和决策。

◦ 核心逻辑：先用 CNN（比如 ResNet、MobileNet）处理原始图像，提取低 / 中维局部特征（把图像变成 特征图）；再把特征图拆分成 特征块（类似 NLP 的 Token），输入 Transformer encoder，捕捉全局关联；最后输出结果（分类 / 检测 / 分割）。

◦ 代表作：DETR（DEtection TRansformer）模型，它用一个 CNN 提取特征，然后用一个 Transformer 解码器来进行目标检测，取得了非常好的效果。

◦ 优势：对初学者友好，CNN 和 Transformer 模块相对独立，不用改核心结构，直接复用现有模型；

◦ 劣势：特征块拆分可能破坏局部连续性（比如把车的车头和车身拆到不同特征块）。

模式二：在 CNN 的骨架中，嵌入 Transformer 模块

◦ 初学者理解：在侦探的工作流程中，穿插安排一些战略研讨会。比如，在处理完几个街区的线索后，让所有侦探开个会，用自注意力的方式全局交流一下心得，再分头去下一个区域。

◦ 核心逻辑：在 CNN 的卷积层之间，插入 Transformer 模块（比如 “卷积层 → Transformer 模块 → 卷积层”），让 CNN 在提取局部特征的过程中，就能捕捉全局关联，不用等到最后再建模。

◦ 代表作：CoAtNet、BoTNet 等模型，它们将卷积层和注意力模块交替堆叠，试图在每个阶段都同时利用局部和全局信息。

◦ 优势：兼顾局部提取和全局建模，计算量比范式 1 小（比如 Swin 的窗口注意力，复杂度从 O (N²) 降到 O (N×W²)，W 是窗口大小）；◦ 劣势：模块交互多，初学者理解起来需要理清层级关系。

模式三：卷积操作替代 Transformer 的部分组件（降低计算成本）

◦ 初学者理解：相当于让 Transformer 学 CNN 的高效操作，既保留全局视野，又不用花太多计算资源。

◦ 核心逻辑：保留 Transformer 的全局建模思路，但用卷积操作替代部分自注意力机制（比如用深度卷积替代全窗口注意力），在不损失太多性能的前提下，降低计算量和延迟。

◦ 代表作：MobileVIT（用深度可分离卷积替代部分注意力，适配移动端）、CoaT（用卷积增强注意力，提升效率）。

◦ 优势：计算效率高，能部署在手机、车载设备等边缘端，适合实际应用；

◦ 劣势：需要平衡卷积替代比例，比例太高会损失全局建模能力，比例太低则达不到降本效果。

自动驾驶 BEV 领域的典范：用 CNN 提取特征，用 Transformer 做视角转换

◦ 在自动驾驶的 BEV（鸟瞰图）感知中，一个极其流行的范式是：

i. 用强大的 CNN，从多路 2D 摄像头图像中，提取出丰富的局部特征。

ii. 然后，用一个基于 Transformer 的交叉注意力模块，像查询一样，巧妙地将这些来自不同视角的 2D 特征，融合并投影到一个统一的 3D 鸟瞰图（BEV）空间中。

◦ 评价：这堪称 CNN 与 Transformer 协同工作的优秀案例，充分发挥了各自的优势，共同完成了一项极其复杂的任务。

联合是必然的。因为没有免费的午餐，纯 Transformer 的无偏见需要巨大的数据和算力代价。在现实世界的有限资源下，将 CNN 高效的归纳偏置与 Transformer 强大的全局建模能力相结合，是当前通往更高性能、更强泛化能力的最优路径。

五、总结一下吧，没有永远的王者，只有不断的进化🔖

让我们回到最初的问题：CNN 和 Transformer，谁赢了？

答案是：没有赢家，或者说，AI 赢了。

这场权力的游戏，最终没有走向零和博弈，而是促成了一场伟大的联姻。它让我们深刻地认识到：

CNN（微观侦探）：它在提取局部视觉模式方面的效率和可靠性，是无与伦比的。它的归纳偏置是宝贵的财富，而非过时的枷锁。
Transformer（宏观战略家）：它所带来的全局自注意力思想，为建模长距离依赖关系提供了一把前所未有的利剑，打开了通往更深层次语义理解的大门。

AI 的发展史，就是一部不断跨界、融合、取长补短的进化史。从 CNN 到 Transformer，再到两者的结合，我们看到的不是技术的终结，而是思想的碰撞与新生。

对于咱们大家而言，最重要的，是理解每种技术背后所解决的核心问题。

未来也许还会有全新的、我们今天无法想象的架构出现。但几乎可以肯定的是，CNN 的局部卷积和 Transformer 的全局注意力，这两种处理信息的基本范式，将会以各种灵活的形式，继续存在于未来的模型之中，产生更难以想象的表现力。

92IT

Just love IT.

CNN+Transformer 卷积与注意力的强强联合