带你梳理AI疯狂进化的四年

转载：小红书菌汤锅Agent

前言🔖

如果把时间拨回到 2022 年底，我们很难想象，不到四年之后，AI 会从一个聊天窗口蔓延到搜索、编程、办公、设计、知识管理、自动化、机器人，甚至重新定义 “软件” 这个词本身。

更准确地说，AI 不是突然取代了某一个行业，而是先吞掉了人机交互的入口，然后开始沿着入口往下吞：吞搜索框，吞编辑器，吞工作流，吞知识库，吞操作系统，最后试图吞掉现实世界中的行动能力。

这篇文章想按时间线梳理一下，过去这几年 AI 是如何一步步走到今天的。

一切的开始🔖

2022 年 11 月 30 日，OpenAI 以并不高调的方式发布了 ChatGPT。当时的人们可能还不知道，在输入第一句话并按下发送按钮的那一刻，未来已经开始换轨。

ChatGPT 的形态非常简单：输入一句话，发送，然后它回复你的消息。这种简单到极致的交互却引起了巨大的期待，因为这是很多人第一次真实地感觉到，自己正在和机器对话。

在此之前，人们当然也用过搜索引擎、语音助手、客服机器人和各种推荐算法。但它们大多是 “系统给我一个结果”，而 ChatGPT 带来的感受是 “我可以和一个系统持续协商”。这件事非常重要，因为它让自然语言第一次成为了通用操作界面。

与此同时，大家开始尝试各种方式来试探它的能力边界。很快便发现，ChatGPT 的回答强依赖于你输入了什么，于是一个词开始爆火：Prompt（提示词）。

Prompt 工程🔖

Prompt 在这个时期相当于咒语。人们尝试了很多不同的 Prompt，当时分享爆火 Prompt 也是自媒体的涨粉利器。但总结起来，核心内容无非这些：

1.cosplay
2.one shot & few shot
3.think step by step

其中 cosplay 就是让模型玩角色扮演。那时普遍认为，模型在扮演角色的过程中可以激活相应的模型权重，能够更好地回答问题。例如当你问编程相关的问题时，你可以说：你是一名资深的软件开发工程师，有着丰富的软件开发经验，然后再进行提问。当然也有人会让模型扮演猫猫，让其在每句话的后面加喵字来增添趣味性。

one shot 和 few shot 则是为了让模型理解你需要的返回结构，或者指定输出模式。当你希望模型判断某句话的情感时，可以给它几个例子：

这道菜很好吃 // 正面 你太差劲了 // 负面 这部电影很好看 // 正面 太无聊了 //

这时模型会输出 “负面”，完成我们想要的情感判断。

think step by step 则更加重要。当我们在和模型对话时，在最后加上 think step by step，可以让模型更加细致地、小步骤地处理问题。这在早期模型上确实能够增强不少能力。

不过，这些小技巧随着模型能力的增强，在今天已经没有早期那么重要了。或者说，Prompt 工程从 “咒语学” 变成了 “上下文工程”：你不再只是想办法骗模型发挥能力，而是要给模型提供清晰的目标、边界、材料、工具和反馈机制。

但在那个阶段，普通用户最先感受到的并不是 “工作流” 这件事，而是一个更直接的变化：原来很多需要搜索的问题，现在可以直接问 AI。

这也是 AI 发展的第一个外溢点。ChatGPT 最初只是一个聊天框，但它很快开始替代一部分搜索行为。因为对用户来说，搜索本质上不是为了看链接，而是为了得到答案。

Perplexity🔖

Perplexity 正是在这个缝隙里出现的。

以前的搜索引擎往往只能利用关键词来搜索对应的内容。当你需要获取某个模糊问题的答案时，搜索引擎并不能直接给你有用的解答。它给你的是链接，是网页，是你自己继续筛选、打开、比较、判断的起点。

而在 ChatGPT 出现后，当你想要问一个问题并获取答案时，第一反应可能已经变成了先问问 AI，而不是问问百度或者谷歌。

Perplexity 抓住了这个机会，开始做 AI 搜索，这也是早期 AI 应用中非常典型的范例。它没有试图重新发明搜索引擎的所有基础设施，而是把搜索结果、引用来源和语言模型总结结合在一起，直接回答问题。

这背后真正重要的变化不是 “搜索结果多了一段 AI 总结”，而是用户预期变了。

过去我们默认搜索是一个过程：输入关键词，打开多个网页，自己拼接答案。AI 搜索让用户开始期待搜索是一个结果：我问一个自然语言问题，你直接给我一个带来源的答案。

一旦用户预期改变，传统搜索框就开始动摇。因为用户真正想要的从来不是十个蓝色链接，而是答案、决策和下一步行动。

RAG🔖

但 AI 搜索主要解决的是公开信息的问题。它可以帮你从互联网上找答案，却还不能自然地进入一个公司、一个团队、一个项目内部。

当用户开始期待 AI 直接给答案时，下一个问题很快出现了：如果答案藏在我的文档、数据库、代码仓库和业务系统里，AI 要怎么知道？

于是，另一个关键词开始变得重要：RAG。

RAG 的全称是 Retrieval-Augmented Generation，也就是检索增强生成。简单来说，就是在模型回答问题之前，先从外部知识库裡检索相关材料，再把这些材料和用户问题一起交给模型，让模型基于检索到的内容生成答案。

这件事解决的是早期大模型应用里最现实的一个问题：模型很聪明，但它不知道你的私有知识。

ChatGPT 知道很多通用知识，但它不知道你公司内部文档，不知道你项目里的历史决策，不知道你的产品手册，也不知道某个客户过去提过什么需求。如果每次都靠人工复制粘贴上下文，AI 就很难真正进入业务系统。

RAG 于是成了早期 AI 应用落地时最常见的方案。

它通常包括几个步骤：把文档切分成片段，转成向量，存进向量数据库；用户提问时，把问题也转成向量，找到最相关的文档片段；最后把这些片段塞进模型上下文里，让模型生成回答。

从产品体验上看，RAG 最直观的形态就是 “和你的知识库聊天”。企业内部知识库、客服问答、法律文档检索、代码库问答、投研报告分析，很多早期 AI 应用本质上都是 RAG。

但 RAG 也很快暴露出问题。检索不到，模型就会乱答；检索到了错误片段，模型也可能一本正经地总结错误内容；文档切分不好，重要上下文会断掉；权限控制不好，内部数据还可能被错误暴露。

所以 RAG 的意义不只是给模型接一个知识库，而是让大家第一次意识到：AI 应用的核心不只在模型，也在数据组织、检索质量、权限边界和反馈闭环。

这也是 AI 吞噬软件的一个关键中间层。模型负责生成，RAG 负责把组织里的知识喂给模型。它让 AI 不再只是回答通用问题，而是开始进入具体企业、具体项目、具体业务流程。

Cursor🔖

而在所有 “具体项目” 的场景里，编程是最先被明显改变的一个。

原因也很简单：代码库本身就是一种高度结构化的私有知识库。它有文件、有依赖、有调用关系、有历史包袱，也有大量只有项目内部才知道的上下文。如果 AI 只能补全几行代码，它还只是一个输入法；但如果 AI 能理解整个代码库，它就开始接近一个真正的开发助手。

在 GPT 出现之前，就已经有代码补全相关的模型了，比如 GitHub Copilot。但那个时期的 AI 编程还主要停留在 “补全代码” 的等级：你写到一半，它猜下一段是什么。它很有用，但还没有改变开发者和代码库之间的关系。

Cursor 首先改变的，正是开发者和代码库之间的关系。

它不是把 AI 做成编辑器旁边的一个小插件，而是把 AI 作为编辑器的核心能力。你可以让它解释代码、修改多个文件、根据报错定位问题、基于整个代码库回答问题，甚至直接生成一组改动。

这件事的意义在于，程序员和代码库之间的交互方式开始变化了。

过去我们理解一个项目，靠的是读目录、搜关键词、跳转引用、看文档、跑测试。Cursor 之后，你可以直接问：“这个功能从哪里开始？”“这个 bug 可能在哪里？”“帮我把这个页面改成新的交互。” AI 开始承担一部分 “代码库导航” 和 “修改计划” 的工作。

这并不意味着程序员不需要理解代码了。恰恰相反，它让程序员更频繁地站在更高一层：你要判断需求是否清楚，方案是否合理，改动是否破坏边界，测试是否覆盖风险。

从 Cursor 开始，AI 编程不再只是更快地写代码，而是开始重构软件开发流程本身。

多模态🔖

Cursor 证明了一件事：只要 AI 能拿到足够多的项目上下文，它就能从 “生成一段文本” 变成 “参与一个任务”。

但代码和文档毕竟还是文本世界。真实工作里，大量上下文并不长成文字，而是长成截图、界面、设计稿、图表、音频、视频和空间环境。AI 如果想继续往外扩张，就不能只会读字。

所以，多模态成为下一步。

早期的语言模型主要处理文本。你给它一段话，它输出一段话。后来模型开始能看图、听声音、理解截图、分析视频，甚至生成语音和图像。这让 AI 从 “文本助手” 变成了更接近 “通用感知接口” 的东西。

GPT-4V 让很多人第一次意识到，AI 不仅可以读文档，也可以读界面、读图表、读照片。GPT-4o 则进一步把文本、语音、图像和实时对话揉在一起，让人机交互变得更自然。

多模态的重要性不只是炫技。

因为人类的工作并不是只存在于文字中。设计稿、报表截图、网页界面、会议录音、监控画面、白板照片、代码运行结果，这些都是现实工作的一部分。当 AI 能够理解这些信息，它就不再只能处理你喂给它的文字，而是开始接近你真实的工作环境。

这也是为什么多模态会和 Agent 强相关。Agent 想要行动，必须先能感知环境。不能看见屏幕，就很难操作软件；不能理解文件，就很难完成办公任务；不能理解图像和空间，就很难进入物理世界。

Dify🔖

当模型能读文本、接知识库、看图片、理解更多输入之后，问题又从 “模型能不能回答” 变成了 “这些能力如何被稳定地做成产品”。

因为真实业务不需要一次漂亮的对话，它需要一个可复用、可部署、可观测、可迭代的应用。Dify 这类平台，就是在这个阶段出现的。

早期很多人使用大模型时，是直接打开网页聊天。但企业和开发者真正需要的往往不是一个聊天框，而是一个可部署、可维护、可集成的流程：接入模型，配置 Prompt，连接知识库，设置工具调用，编排工作流，发布成 API 或者 Web 应用。

Dify 抓住的就是这个中间层。

它把原本需要写代码拼起来的 RAG、Prompt 编排、模型选择、工作流节点、Agent、日志和发布能力，做成了一个相对低门槛的平台。对于很多团队来说，这意味着他们不用从零搭建一套 LLMOps 系统，也能快速做出内部知识库、客服机器人、文档生成器、数据分析助手。

这类平台的意义在于，它把 AI 应用开发从 “调用一次模型 API” 推进到 “运营一个 AI 应用”。

因为真实业务里，最难的往往不是让模型回答一句话，而是让它稳定地在一个流程里工作：输入从哪里来，知识库如何更新，模型答错了怎么调试，敏感信息如何处理，输出如何被业务系统消费。

从这个角度看，Dify 并不是简单的低代码平台，而是 AI 吞噬软件开发方式过程中的一个过渡形态。它让更多非底层 AI 工程师的人，也能开始搭建自己的 AI 应用。

GPT-4o & o1🔖

Dify 这类平台降低了 AI 应用的搭建门槛，但它们也暴露出一个事实：应用层能走多远，仍然很大程度上取决于底层模型能不能继续进化。

到了 2024 年，两个模型节点尤其重要：GPT-4o 和 o1。

GPT-4o 代表的是交互形态的变化。它强调文本、音频、图像的统一处理，也强调更低延迟的实时对话。过去我们和 AI 聊天，仍然像在发邮件：输入一段，等它回复一段。GPT-4o 让 AI 更像一个可以实时回应的对话对象。

这会改变很多产品的设计。因为当延迟足够低、语音足够自然、模型又能看见屏幕时，很多原来必须通过按钮、菜单、表单完成的操作，都可以变成一句话加几轮确认。

而 o1 代表的是另一个方向：推理时间成为一种可分配资源。

早期我们总希望模型马上回答，越快越好。但 o1 系列提出了一个很重要的信号：对于复杂问题，模型需要 “多想一会儿”。这不是简单地让它输出 “让我一步步思考”，而是在模型训练和产品形态上承认，复杂推理、数学、代码、规划和多步骤任务，需要更多计算。

这背后其实是 AI 产品的分层：有些任务需要快，有些任务需要准；有些任务适合即时聊天，有些任务适合让 Agent 在后台跑几分钟甚至更久。

从 GPT-4o 到 o1，AI 不再只是一个更聪明的聊天框，而是开始具备两种方向：更自然的实时交互，和更深的复杂推理。

MCP🔖

GPT-4o 让交互更自然，o1 让复杂推理更可用。但模型再强，如果仍然被困在聊天框里，它也很难真正完成工作。

于是，一个新问题变得越来越明显：模型如果拿不到上下文、不能调用工具，就很难进入真实工作流。

它不知道你的代码库，不知道你的数据库，不知道你的日历，不知道你的 Slack，不知道你的本地文件，也不知道你公司内部系统里发生了什么。你可以把信息复制给它，但这种方式既低效，也不可扩展。

MCP（Model Context Protocol）出现的意义就在这里。它试图提供一个通用协议，让 AI 客户端可以连接各种数据源和工具。你可以把它理解成 AI 时代的 “连接标准”：模型通过统一方式访问文件、数据库、GitHub、浏览器、企业系统，而不是每一个应用都重新做一套私有集成。

MCP 的重要性不在于它本身有多复杂，而在于它回答了一个关键问题：AI 如何进入真实工作流？

如果没有这类协议，每一个 Agent 都只能困在自己的聊天窗口里。它也许很聪明，但没有手，没有眼睛，没有上下文。MCP 让 AI 开始具备 “接入环境” 的能力。

这也是 Agent 真正能跑起来的前提。模型负责理解和决策，工具负责获取信息和执行动作，协议负责把它们稳定连接起来。

DeepSeek🔖

MCP 解决的是 “模型如何连接世界” 的问题，但还有另一个问题同样关键：如果每一次连接、检索、推理、执行都要调用模型，那么模型的成本、速度和可获得性就会直接决定 AI 应用能不能规模化。

所以到了 2025 年初，DeepSeek 带来的冲击并不只是 “国产模型很强”。

真正的冲击在于，它改变了市场对模型能力、成本和开源路线的预期。DeepSeek-R1 把推理模型这件事从少数头部公司的闭门游戏，拉到了更开放、更低成本、更可复制的语境里。

在此之前，很多人默认最强模型只能来自极少数巨头，默认推理能力一定昂贵，默认应用开发者只能在封闭 API 之上做包装。而 DeepSeek 让大家看到，能力扩散的速度可能比想象中更快。

这件事对行业心理的影响很大。

如果模型能力不断接近，价格不断下降，开源和蒸馏模型不断追赶，那么应用层真正的壁垒就不能只建立在 “我调用了一个更强模型” 上。你需要有数据、有场景、有分发、有产品体验、有工作流理解。

DeepSeek 之后，AI 叙事从 “谁拥有最强模型” 进一步转向 “谁能把模型用到真实场景里，并且用得足够便宜、足够稳定、足够深入”。

Claude Code🔖

而软件开发，正是 “真实场景” 里最适合验证这一点的地方。

因为开发任务天然包含大量可验证的反馈：代码能不能运行，测试能不能通过，类型检查有没有报错，日志是否符合预期。模型只负责生成代码还不够，它必须能在真实工程环境里反复读取、修改、执行、验证。

如果说 Cursor 代表 AI 进入编辑器，那么 Claude Code 代表 AI 进一步进入终端。

这看起来只是入口不同，但实际差异很大。编辑器更接近写代码的界面，而终端更接近开发者真实执行工作的地方：安装依赖、跑测试、查日志、改文件、提交代码、调用脚本、排查环境问题。

Claude Code 的关键点在于，它不是只给你生成一段代码，而是可以围绕一个工程任务持续行动。它能读代码、搜索文件、编辑文件、运行测试、根据错误继续修改，再把过程反馈给你。

这让 AI 从 “代码建议者” 变成了 “工程协作者”。

当然，这种协作仍然需要人类把关。AI 会误解需求，会改错边界，会在复杂系统里做出看似合理但实际危险的修改。但它已经足够强，以至于很多开发者的工作方式开始改变：不是自己一步步写完所有代码，而是把任务切成可验证的小块，让 Agent 去实现，自己负责审查、测试和决策。

这也是软件工程最明显的变化之一。过去软件开发的核心瓶颈是 “写代码”，现在越来越多的瓶颈变成了 “定义问题、约束范围、验证结果、管理多个 Agent 的产出”。

Skills🔖

Claude Code 让人看到，Agent 已经可以围绕一个工程任务持续行动。但当它真的开始承担任务之后，问题也从 “它能不能做一次” 变成了 “它能不能按同一种标准反复做好”。

当 Agent 开始能使用工具、读文件、跑命令之后，一个新问题出现了：如何让它稳定地学会某类任务？

仅靠 Prompt 是不够的。因为 Prompt 通常是一次性的，它会丢失，会变长，会混乱。复杂任务还需要范例、脚本、模板、检查清单、领域知识、输出规范。

Skills 的意义就在这里。

你可以把 Skill 理解成一种可复用的能力包。它不是单纯的一句提示词，而是一组结构化的说明、资源和脚本。Agent 在遇到相关任务时，可以加载对应 Skill，按照其中的流程来完成工作。

这件事看起来很小，但它非常关键。

因为它意味着 AI 能力开始模块化。过去我们把能力写进软件功能里：一个按钮，一个菜单，一个接口。现在我们开始把能力写成自然语言和脚本混合的 “技能”：如何做数据分析，如何生成 PPT，如何执行代码审查，如何处理某个团队的发布流程。

这会改变软件的边界。未来很多 “功能” 可能不再是固定写死在产品里的 UI，而是一组 Agent 可调用的 Skill。用户用自然语言提出目标，Agent 根据目标选择 Skill、调用工具、执行流程。

从这个角度看，Skills 是 Prompt 工程的下一站，也是 Agent 应用走向规模化的基础设施之一。

OpenClaw🔖

Skills 让 Agent 的能力开始被封装和复用。但能力被封装之后，下一个问题就是：这些能力应该由谁来调度？用户总不能每次都打开不同工具、选择不同 Skill、手动拼接不同流程。

所以，OpenClaw 这类项目代表的是另一种方向：个人 Agent 开始尝试常驻在你的真实生活和工作入口中。

它的思路不是让你打开一个新应用去找 AI，而是把 AI 接到你已经在用的消息入口、电脑环境和自动化工具里。你可以在聊天软件里发出指令，让 Agent 去处理邮件、查资料、跑脚本、整理文件、创建任务，甚至协调多个 Agent 一起工作。

这背后的野心其实很明显：AI 不想只做一个应用，它想做应用之上的操作层。

过去我们使用软件，是人去适应软件的结构。你要打开邮箱、打开日历、打开项目管理工具、打开浏览器、打开代码仓库，然后在这些系统之间切换。

Agent 的方向则是反过来：你描述目标，AI 跨系统调用工具，把结果带回来。

OpenClaw 这类东西也暴露出一个更尖锐的问题：当 Agent 真的开始行动，风险会迅速放大。

一个聊天机器人答错了，最多是误导你；一个拥有邮件、文件、支付、代码仓库权限的 Agent 做错了，可能就会造成真实损失。所以 Agent 时代最重要的能力不只是 “更聪明”，还有权限管理、审计、隔离、回滚、确认机制和责任边界。

AI 开始吞噬软件入口的同时，也把软件安全问题推到了更复杂的层级。

Memory / 主动 Agent & 物理 AI🔖

当个人 Agent 开始常驻在消息入口、电脑环境和自动化系统里，它就不再只是一个临时工具，而更像一个长期协作者。

长期协作需要两件事：它要记得过去发生过什么，也要能在合适的时候主动行动。

所以最后一个阶段，是 AI 从 “你问我答” 走向 “我记得你，并且会主动做事”。

Memory 的意义不只是让 AI 记住你的名字、偏好和几条个人信息。真正重要的是，AI 能否在长期上下文理解你的目标、项目、习惯、关系和历史决策。如果没有记忆，每一次对话都是从零开始；有了记忆，AI 才可能成为持续协作的对象。

主动 Agent 则更进一步。

今天的大多数 AI 仍然是被动的：你发出请求，它才回应。未来的 Agent 会越来越主动：它会在会议前帮你准备背景资料，在项目延期时提醒风险，在代码库出现异常时先做排查，在你没有明确下命令时也能根据长期目标提出建议。

但主动性也意味着更高风险。因为一旦 AI 能主动行动，我们就必须回答几个问题：它什么时候可以自作主张？什么时候必须请求确认？它的记忆可以保存多久？哪些数据不能被用来推断？它犯错之后谁负责？

再往前一步，就是物理 AI。

当多模态、推理、Agent、工具调用和记忆结合到机器人、自动驾驶、工业设备、智能家居里，AI 就不再只是影响屏幕里的世界，而是开始影响物理世界。它不只是生成一段文字，而是移动一个物体、控制一台机器、调度一组设备。

这将会是 “AI 吞噬一切” 最真实也最危险的含义。

AI 并不是一口吃掉世界。它先从聊天框开始，吞掉搜索的答案层，吞掉外部知识的组织方式，吞掉编程的编辑器，吞掉办公和知识管理的流程，吞掉软件之间的连接方式，最后试图吞掉行动本身。

不到四年，AI 从一个聊天框，变成了一套新的范式。

它还远远没有完成吞噬，但它已经改变了我们理解软件、工作和能力的方式。接下来真正的问题不是 “AI 会不会继续变强”，而是当 AI 继续向真实世界伸手时，我们准备如何给它边界、权限和责任。

92IT

Just love IT.

带你梳理AI疯狂进化的四年