转载:小红书 菌汤锅Agent
前言🔖
如果把时间拨回到 2022 年底,我们很难想象,不到四年之后,AI 会从一个聊天窗口蔓延到搜索、编程、办公、设计、知识管理、自动化、机器人,甚至重新定义 “软件” 这个词本身。
更准确地说,AI 不是突然取代了某一个行业,而是先吞掉了人机交互的入口,然后开始沿着入口往下吞:吞搜索框,吞编辑器,吞工作流,吞知识库,吞操作系统,最后试图吞掉现实世界中的行动能力。
这篇文章想按时间线梳理一下,过去这几年 AI 是如何一步步走到今天的。
一切的开始🔖

2022 年 11 月 30 日,OpenAI 以并不高调的方式发布了 ChatGPT。当时的人们可能还不知道,在输入第一句话并按下发送按钮的那一刻,未来已经开始换轨。
ChatGPT 的形态非常简单:输入一句话,发送,然后它回复你的消息。这种简单到极致的交互却引起了巨大的期待,因为这是很多人第一次真实地感觉到,自己正在和机器对话。
在此之前,人们当然也用过搜索引擎、语音助手、客服机器人和各种推荐算法。但它们大多是 “系统给我一个结果”,而 ChatGPT 带来的感受是 “我可以和一个系统持续协商”。这件事非常重要,因为它让自然语言第一次成为了通用操作界面。
与此同时,大家开始尝试各种方式来试探它的能力边界。很快便发现,ChatGPT 的回答强依赖于你输入了什么,于是一个词开始爆火:Prompt(提示词)。
Prompt 工程🔖
Prompt 在这个时期相当于咒语。人们尝试了很多不同的 Prompt,当时分享爆火 Prompt 也是自媒体的涨粉利器。但总结起来,核心内容无非这些:
1.cosplay 2.one shot & few shot 3.think step by step
其中 cosplay 就是让模型玩角色扮演。那时普遍认为,模型在扮演角色的过程中可以激活相应的模型权重,能够更好地回答问题。例如当你问编程相关的问题时,你可以说:你是一名资深的软件开发工程师,有着丰富的软件开发经验,然后再进行提问。当然也有人会让模型扮演猫猫,让其在每句话的后面加喵字来增添趣味性。
one shot 和 few shot 则是为了让模型理解你需要的返回结构,或者指定输出模式。当你希望模型判断某句话的情感时,可以给它几个例子:
这道菜很好吃 // 正面 你太差劲了 // 负面 这部电影很好看 // 正面 太无聊了 //
这时模型会输出 “负面”,完成我们想要的情感判断。
think step by step 则更加重要。当我们在和模型对话时,在最后加上 think step by step,可以让模型更加细致地、小步骤地处理问题。这在早期模型上确实能够增强不少能力。
不过,这些小技巧随着模型能力的增强,在今天已经没有早期那么重要了。或者说,Prompt 工程从 “咒语学” 变成了 “上下文工程”:你不再只是想办法骗模型发挥能力,而是要给模型提供清晰的目标、边界、材料、工具和反馈机制。
但在那个阶段,普通用户最先感受到的并不是 “工作流” 这件事,而是一个更直接的变化:原来很多需要搜索的问题,现在可以直接问 AI。
这也是 AI 发展的第一个外溢点。ChatGPT 最初只是一个聊天框,但它很快开始替代一部分搜索行为。因为对用户来说,搜索本质上不是为了看链接,而是为了得到答案。
Perplexity🔖

Perplexity 正是在这个缝隙里出现的。
以前的搜索引擎往往只能利用关键词来搜索对应的内容。当你需要获取某个模糊问题的答案时,搜索引擎并不能直接给你有用的解答。它给你的是链接,是网页,是你自己继续筛选、打开、比较、判断的起点。
而在 ChatGPT 出现后,当你想要问一个问题并获取答案时,第一反应可能已经变成了先问问 AI,而不是问问百度或者谷歌。
Perplexity 抓住了这个机会,开始做 AI 搜索,这也是早期 AI 应用中非常典型的范例。它没有试图重新发明搜索引擎的所有基础设施,而是把搜索结果、引用来源和语言模型总结结合在一起,直接回答问题。
这背后真正重要的变化不是 “搜索结果多了一段 AI 总结”,而是用户预期变了。
过去我们默认搜索是一个过程:输入关键词,打开多个网页,自己拼接答案。AI 搜索让用户开始期待搜索是一个结果:我问一个自然语言问题,你直接给我一个带来源的答案。
一旦用户预期改变,传统搜索框就开始动摇。因为用户真正想要的从来不是十个蓝色链接,而是答案、决策和下一步行动。
RAG🔖
但 AI 搜索主要解决的是公开信息的问题。它可以帮你从互联网上找答案,却还不能自然地进入一个公司、一个团队、一个项目内部。
当用户开始期待 AI 直接给答案时,下一个问题很快出现了:如果答案藏在我的文档、数据库、代码仓库和业务系统里,AI 要怎么知道?
于是,另一个关键词开始变得重要:RAG。
RAG 的全称是 Retrieval-Augmented Generation,也就是检索增强生成。简单来说,就是在模型回答问题之前,先从外部知识库裡检索相关材料,再把这些材料和用户问题一起交给模型,让模型基于检索到的内容生成答案。
这件事解决的是早期大模型应用里最现实的一个问题:模型很聪明,但它不知道你的私有知识。
ChatGPT 知道很多通用知识,但它不知道你公司内部文档,不知道你项目里的历史决策,不知道你的产品手册,也不知道某个客户过去提过什么需求。如果每次都靠人工复制粘贴上下文,AI 就很难真正进入业务系统。
RAG 于是成了早期 AI 应用落地时最常见的方案。
它通常包括几个步骤:把文档切分成片段,转成向量,存进向量数据库;用户提问时,把问题也转成向量,找到最相关的文档片段;最后把这些片段塞进模型上下文里,让模型生成回答。
从产品体验上看,RAG 最直观的形态就是 “和你的知识库聊天”。企业内部知识库、客服问答、法律文档检索、代码库问答、投研报告分析,很多早期 AI 应用本质上都是 RAG。
但 RAG 也很快暴露出问题。检索不到,模型就会乱答;检索到了错误片段,模型也可能一本正经地总结错误内容;文档切分不好,重要上下文会断掉;权限控制不好,内部数据还可能被错误暴露。
所以 RAG 的意义不只是给模型接一个知识库,而是让大家第一次意识到:AI 应用的核心不只在模型,也在数据组织、检索质量、权限边界和反馈闭环。
这也是 AI 吞噬软件的一个关键中间层。模型负责生成,RAG 负责把组织里的知识喂给模型。它让 AI 不再只是回答通用问题,而是开始进入具体企业、具体项目、具体业务流程。
Cursor🔖

而在所有 “具体项目” 的场景里,编程是最先被明显改变的一个。
原因也很简单:代码库本身就是一种高度结构化的私有知识库。它有文件、有依赖、有调用关系、有历史包袱,也有大量只有项目内部才知道的上下文。如果 AI 只能补全几行代码,它还只是一个输入法;但如果 AI 能理解整个代码库,它就开始接近一个真正的开发助手。
在 GPT 出现之前,就已经有代码补全相关的模型了,比如 GitHub Copilot。但那个时期的 AI 编程还主要停留在 “补全代码” 的等级:你写到一半,它猜下一段是什么。它很有用,但还没有改变开发者和代码库之间的关系。
Cursor 首先改变的,正是开发者和代码库之间的关系。
它不是把 AI 做成编辑器旁边的一个小插件,而是把 AI 作为编辑器的核心能力。你可以让它解释代码、修改多个文件、根据报错定位问题、基于整个代码库回答问题,甚至直接生成一组改动。
这件事的意义在于,程序员和代码库之间的交互方式开始变化了。
过去我们理解一个项目,靠的是读目录、搜关键词、跳转引用、看文档、跑测试。Cursor 之后,你可以直接问:“这个功能从哪里开始?”“这个 bug 可能在哪里?”“帮我把这个页面改成新的交互。” AI 开始承担一部分 “代码库导航” 和 “修改计划” 的工作。
这并不意味着程序员不需要理解代码了。恰恰相反,它让程序员更频繁地站在更高一层:你要判断需求是否清楚,方案是否合理,改动是否破坏边界,测试是否覆盖风险。
从 Cursor 开始,AI 编程不再只是更快地写代码,而是开始重构软件开发流程本身。
多模态🔖

Cursor 证明了一件事:只要 AI 能拿到足够多的项目上下文,它就能从 “生成一段文本” 变成 “参与一个任务”。
但代码和文档毕竟还是文本世界。真实工作里,大量上下文并不长成文字,而是长成截图、界面、设计稿、图表、音频、视频和空间环境。AI 如果想继续往外扩张,就不能只会读字。
所以,多模态成为下一步。
早期的语言模型主要处理文本。你给它一段话,它输出一段话。后来模型开始能看图、听声音、理解截图、分析视频,甚至生成语音和图像。这让 AI 从 “文本助手” 变成了更接近 “通用感知接口” 的东西。
GPT-4V 让很多人第一次意识到,AI 不仅可以读文档,也可以读界面、读图表、读照片。GPT-4o 则进一步把文本、语音、图像和实时对话揉在一起,让人机交互变得更自然。
多模态的重要性不只是炫技。
因为人类的工作并不是只存在于文字中。设计稿、报表截图、网页界面、会议录音、监控画面、白板照片、代码运行结果,这些都是现实工作的一部分。当 AI 能够理解这些信息,它就不再只能处理你喂给它的文字,而是开始接近你真实的工作环境。
这也是为什么多模态会和 Agent 强相关。Agent 想要行动,必须先能感知环境。不能看见屏幕,就很难操作软件;不能理解文件,就很难完成办公任务;不能理解图像和空间,就很难进入物理世界。
Dify🔖

当模型能读文本、接知识库、看图片、理解更多输入之后,问题又从 “模型能不能回答” 变成了 “这些能力如何被稳定地做成产品”。
因为真实业务不需要一次漂亮的对话,它需要一个可复用、可部署、可观测、可迭代的应用。Dify 这类平台,就是在这个阶段出现的。
早期很多人使用大模型时,是直接打开网页聊天。但企业和开发者真正需要的往往不是一个聊天框,而是一个可部署、可维护、可集成的流程:接入模型,配置 Prompt,连接知识库,设置工具调用,编排工作流,发布成 API 或者 Web 应用。
Dify 抓住的就是这个中间层。
它把原本需要写代码拼起来的 RAG、Prompt 编排、模型选择、工作流节点、Agent、日志和发布能力,做成了一个相对低门槛的平台。对于很多团队来说,这意味着他们不用从零搭建一套 LLMOps 系统,也能快速做出内部知识库、客服机器人、文档生成器、数据分析助手。
这类平台的意义在于,它把 AI 应用开发从 “调用一次模型 API” 推进到 “运营一个 AI 应用”。
因为真实业务里,最难的往往不是让模型回答一句话,而是让它稳定地在一个流程里工作:输入从哪里来,知识库如何更新,模型答错了怎么调试,敏感信息如何处理,输出如何被业务系统消费。
从这个角度看,Dify 并不是简单的低代码平台,而是 AI 吞噬软件开发方式过程中的一个过渡形态。它让更多非底层 AI 工程师的人,也能开始搭建自己的 AI 应用。
GPT-4o & o1🔖

Dify 这类平台降低了 AI 应用的搭建门槛,但它们也暴露出一个事实:应用层能走多远,仍然很大程度上取决于底层模型能不能继续进化。
到了 2024 年,两个模型节点尤其重要:GPT-4o 和 o1。
GPT-4o 代表的是交互形态的变化。它强调文本、音频、图像的统一处理,也强调更低延迟的实时对话。过去我们和 AI 聊天,仍然像在发邮件:输入一段,等它回复一段。GPT-4o 让 AI 更像一个可以实时回应的对话对象。
这会改变很多产品的设计。因为当延迟足够低、语音足够自然、模型又能看见屏幕时,很多原来必须通过按钮、菜单、表单完成的操作,都可以变成一句话加几轮确认。

而 o1 代表的是另一个方向:推理时间成为一种可分配资源。
早期我们总希望模型马上回答,越快越好。但 o1 系列提出了一个很重要的信号:对于复杂问题,模型需要 “多想一会儿”。这不是简单地让它输出 “让我一步步思考”,而是在模型训练和产品形态上承认,复杂推理、数学、代码、规划和多步骤任务,需要更多计算。
这背后其实是 AI 产品的分层:有些任务需要快,有些任务需要准;有些任务适合即时聊天,有些任务适合让 Agent 在后台跑几分钟甚至更久。
从 GPT-4o 到 o1,AI 不再只是一个更聪明的聊天框,而是开始具备两种方向:更自然的实时交互,和更深的复杂推理。
MCP🔖

GPT-4o 让交互更自然,o1 让复杂推理更可用。但模型再强,如果仍然被困在聊天框里,它也很难真正完成工作。
于是,一个新问题变得越来越明显:模型如果拿不到上下文、不能调用工具,就很难进入真实工作流。
它不知道你的代码库,不知道你的数据库,不知道你的日历,不知道你的 Slack,不知道你的本地文件,也不知道你公司内部系统里发生了什么。你可以把信息复制给它,但这种方式既低效,也不可扩展。
MCP(Model Context Protocol)出现的意义就在这里。它试图提供一个通用协议,让 AI 客户端可以连接各种数据源和工具。你可以把它理解成 AI 时代的 “连接标准”:模型通过统一方式访问文件、数据库、GitHub、浏览器、企业系统,而不是每一个应用都重新做一套私有集成。
MCP 的重要性不在于它本身有多复杂,而在于它回答了一个关键问题:AI 如何进入真实工作流?
如果没有这类协议,每一个 Agent 都只能困在自己的聊天窗口里。它也许很聪明,但没有手,没有眼睛,没有上下文。MCP 让 AI 开始具备 “接入环境” 的能力。
这也是 Agent 真正能跑起来的前提。模型负责理解和决策,工具负责获取信息和执行动作,协议负责把它们稳定连接起来。
DeepSeek🔖

MCP 解决的是 “模型如何连接世界” 的问题,但还有另一个问题同样关键:如果每一次连接、检索、推理、执行都要调用模型,那么模型的成本、速度和可获得性就会直接决定 AI 应用能不能规模化。
所以到了 2025 年初,DeepSeek 带来的冲击并不只是 “国产模型很强”。
真正的冲击在于,它改变了市场对模型能力、成本和开源路线的预期。DeepSeek-R1 把推理模型这件事从少数头部公司的闭门游戏,拉到了更开放、更低成本、更可复制的语境里。
在此之前,很多人默认最强模型只能来自极少数巨头,默认推理能力一定昂贵,默认应用开发者只能在封闭 API 之上做包装。而 DeepSeek 让大家看到,能力扩散的速度可能比想象中更快。
这件事对行业心理的影响很大。
如果模型能力不断接近,价格不断下降,开源和蒸馏模型不断追赶,那么应用层真正的壁垒就不能只建立在 “我调用了一个更强模型” 上。你需要有数据、有场景、有分发、有产品体验、有工作流理解。
DeepSeek 之后,AI 叙事从 “谁拥有最强模型” 进一步转向 “谁能把模型用到真实场景里,并且用得足够便宜、足够稳定、足够深入”。
Claude Code🔖

而软件开发,正是 “真实场景” 里最适合验证这一点的地方。
因为开发任务天然包含大量可验证的反馈:代码能不能运行,测试能不能通过,类型检查有没有报错,日志是否符合预期。模型只负责生成代码还不够,它必须能在真实工程环境里反复读取、修改、执行、验证。
如果说 Cursor 代表 AI 进入编辑器,那么 Claude Code 代表 AI 进一步进入终端。
这看起来只是入口不同,但实际差异很大。编辑器更接近写代码的界面,而终端更接近开发者真实执行工作的地方:安装依赖、跑测试、查日志、改文件、提交代码、调用脚本、排查环境问题。
Claude Code 的关键点在于,它不是只给你生成一段代码,而是可以围绕一个工程任务持续行动。它能读代码、搜索文件、编辑文件、运行测试、根据错误继续修改,再把过程反馈给你。
这让 AI 从 “代码建议者” 变成了 “工程协作者”。
当然,这种协作仍然需要人类把关。AI 会误解需求,会改错边界,会在复杂系统里做出看似合理但实际危险的修改。但它已经足够强,以至于很多开发者的工作方式开始改变:不是自己一步步写完所有代码,而是把任务切成可验证的小块,让 Agent 去实现,自己负责审查、测试和决策。
这也是软件工程最明显的变化之一。过去软件开发的核心瓶颈是 “写代码”,现在越来越多的瓶颈变成了 “定义问题、约束范围、验证结果、管理多个 Agent 的产出”。
Skills🔖

Claude Code 让人看到,Agent 已经可以围绕一个工程任务持续行动。但当它真的开始承担任务之后,问题也从 “它能不能做一次” 变成了 “它能不能按同一种标准反复做好”。
当 Agent 开始能使用工具、读文件、跑命令之后,一个新问题出现了:如何让它稳定地学会某类任务?
仅靠 Prompt 是不够的。因为 Prompt 通常是一次性的,它会丢失,会变长,会混乱。复杂任务还需要范例、脚本、模板、检查清单、领域知识、输出规范。
Skills 的意义就在这里。
你可以把 Skill 理解成一种可复用的能力包。它不是单纯的一句提示词,而是一组结构化的说明、资源和脚本。Agent 在遇到相关任务时,可以加载对应 Skill,按照其中的流程来完成工作。
这件事看起来很小,但它非常关键。
因为它意味着 AI 能力开始模块化。过去我们把能力写进软件功能里:一个按钮,一个菜单,一个接口。现在我们开始把能力写成自然语言和脚本混合的 “技能”:如何做数据分析,如何生成 PPT,如何执行代码审查,如何处理某个团队的发布流程。
这会改变软件的边界。未来很多 “功能” 可能不再是固定写死在产品里的 UI,而是一组 Agent 可调用的 Skill。用户用自然语言提出目标,Agent 根据目标选择 Skill、调用工具、执行流程。
从这个角度看,Skills 是 Prompt 工程的下一站,也是 Agent 应用走向规模化的基础设施之一。
OpenClaw🔖

Skills 让 Agent 的能力开始被封装和复用。但能力被封装之后,下一个问题就是:这些能力应该由谁来调度?用户总不能每次都打开不同工具、选择不同 Skill、手动拼接不同流程。
所以,OpenClaw 这类项目代表的是另一种方向:个人 Agent 开始尝试常驻在你的真实生活和工作入口中。
它的思路不是让你打开一个新应用去找 AI,而是把 AI 接到你已经在用的消息入口、电脑环境和自动化工具里。你可以在聊天软件里发出指令,让 Agent 去处理邮件、查资料、跑脚本、整理文件、创建任务,甚至协调多个 Agent 一起工作。
这背后的野心其实很明显:AI 不想只做一个应用,它想做应用之上的操作层。
过去我们使用软件,是人去适应软件的结构。你要打开邮箱、打开日历、打开项目管理工具、打开浏览器、打开代码仓库,然后在这些系统之间切换。
Agent 的方向则是反过来:你描述目标,AI 跨系统调用工具,把结果带回来。
OpenClaw 这类东西也暴露出一个更尖锐的问题:当 Agent 真的开始行动,风险会迅速放大。
一个聊天机器人答错了,最多是误导你;一个拥有邮件、文件、支付、代码仓库权限的 Agent 做错了,可能就会造成真实损失。所以 Agent 时代最重要的能力不只是 “更聪明”,还有权限管理、审计、隔离、回滚、确认机制和责任边界。
AI 开始吞噬软件入口的同时,也把软件安全问题推到了更复杂的层级。
Memory / 主动 Agent & 物理 AI🔖
当个人 Agent 开始常驻在消息入口、电脑环境和自动化系统里,它就不再只是一个临时工具,而更像一个长期协作者。
长期协作需要两件事:它要记得过去发生过什么,也要能在合适的时候主动行动。
所以最后一个阶段,是 AI 从 “你问我答” 走向 “我记得你,并且会主动做事”。
Memory 的意义不只是让 AI 记住你的名字、偏好和几条个人信息。真正重要的是,AI 能否在长期上下文理解你的目标、项目、习惯、关系和历史决策。如果没有记忆,每一次对话都是从零开始;有了记忆,AI 才可能成为持续协作的对象。
主动 Agent 则更进一步。
今天的大多数 AI 仍然是被动的:你发出请求,它才回应。未来的 Agent 会越来越主动:它会在会议前帮你准备背景资料,在项目延期时提醒风险,在代码库出现异常时先做排查,在你没有明确下命令时也能根据长期目标提出建议。
但主动性也意味着更高风险。因为一旦 AI 能主动行动,我们就必须回答几个问题:它什么时候可以自作主张?什么时候必须请求确认?它的记忆可以保存多久?哪些数据不能被用来推断?它犯错之后谁负责?
再往前一步,就是物理 AI。
当多模态、推理、Agent、工具调用和记忆结合到机器人、自动驾驶、工业设备、智能家居里,AI 就不再只是影响屏幕里的世界,而是开始影响物理世界。它不只是生成一段文字,而是移动一个物体、控制一台机器、调度一组设备。
这将会是 “AI 吞噬一切” 最真实也最危险的含义。
AI 并不是一口吃掉世界。它先从聊天框开始,吞掉搜索的答案层,吞掉外部知识的组织方式,吞掉编程的编辑器,吞掉办公和知识管理的流程,吞掉软件之间的连接方式,最后试图吞掉行动本身。
不到四年,AI 从一个聊天框,变成了一套新的范式。
它还远远没有完成吞噬,但它已经改变了我们理解软件、工作和能力的方式。接下来真正的问题不是 “AI 会不会继续变强”,而是当 AI 继续向真实世界伸手时,我们准备如何给它边界、权限和责任。