AI

每天吃透一个AI知识点_AI Agent(智能体)

转载:小红书 AI产品赵哥

前言🔖


今天咱来聊聊这个火的发烫红得发紫的家伙 —— AI 智能体(AI Agent)

你肯定每天都在用 ChatGPT、文心一言吧?觉得它们已经够聪明,问啥都能答?但我说实话,这些顶多算 AI 的入门款!真正的 AI 高级货,是能像人一样有目标、会自己规划、会用工具,还能从经验里慢慢进步的 AI Agent。

你有没有过这样的小幻想、小疑问?

  • 为啥不能直接跟 AI 说 “帮我规划东京五日游,把机票酒店都订好”,然后等着收确认 e-mail 就好?
  • 现在的 AI 明明啥都懂,却只敢当 “陪聊”,不能真的上手帮我搞定事儿?
  • 咱离《钢铁侠》里无所不能的贾维斯,到底还有多远啊?

如果你觉得这些问题问到你心坎儿里了,那咱今天就来聊聊 AI Agent,看看一个聪明的 LLM(大模型)是怎样慢慢长出手脚、拥有自主能力的。

  

一、Agent 的本质是什么?🔖


要理解 Agent,我们必须先搞清楚,它和你现在每天用的 ChatGPT,有啥区别?

ChatGPT(以及其他大语言模型),本质上是一个被动的、一次性的问答机器

💭 LLM(像个大脑)

  • 被动:你不问,它不说。它永远在等待你的下一个问题。
  • 一次性:它针对你的每一个问题,给出一个它认为最好的回答。然后,这次交易就结束了。它不会主动去追问、去验证、去执行后续步骤。

它就像一个拥有全世界所有知识,但被关在一个小黑屋里的大聪明。你可以问它任何问题,它都能对答如流。但它无法走出这个小黑屋,去为你做任何实际的事情。它没有手和脚。

而 AI Agent,是一个 “主动” 的、持续的 “目标执行者”。

🤖 Agent(像个机器人)

  • 主动:你给它一个最终目标,而不是一个具体问题。然后,它会自己主动地将这个大目标分解成一个个小任务,并规划执行步骤
  • 持续:它会进入一个持续的循环,不断地行动、观察结果、反思、再行动,直到最终目标达成。它不是一次性的,有点像项目制的。

如果说 ChatGPT 是一个超级大脑,那么 AI Agent 就是这个超级大脑被赋予了 ** 身体(与外界交互的能力)灵魂(自主规划的意愿)** 之后,对我们所呈现的就是一个完整的生命体。

🤖 一句话总结:ChatGPT 是你的问答顾问,而 AI Agent 是你的超级助理。你对顾问说:“去东京旅游,有什么要注意的?”;你对助理说:“下个月,你给我搞定去东京的全部事宜。”

  

二、AI Agent 的四大核心组件🔖


那么,这个超级助理里面都有啥?一个典型的 AI Agent,通常由四个核心组件构成。我们可以用 “组建一个超人团队” 来类比。

🔹1、大脑(核心引擎):大语言模型 (LLM)

这是 Agent 的超人本人,也是一切智能的来源。

  • 组件:就是我们熟悉的 GPT-5.2、千问 3.5 等强大的大语言模型。
  • 作用
    • a. 理解意图:深度理解你给出的那个模糊、宏大的最终目标。
    • b. 常识与推理:运用它在预训练阶段学到的海量知识,进行逻辑推理。比如,它知道 “旅游” 包含了 “交通”、“住宿”、“景点” 等要素。
    • c. 规划与分解:这是最关键的一步!它会将 “搞定东京之旅” 这个大目标,分解成一系列具体的、可执行的子任务。比如:“1. 查询往返机票;2. 搜索合适的酒店;3. 规划每日行程……”。

大脑是 Agent 的司令部,负责思考 “做什么” 和 “为什么做”。

  

🔹2、感知(信息输入):短期与长期记忆

光有大脑不行,助理需要能 “记住” 事情。记忆分为两种:

  • 短期记忆(Short-Term Memory)
    • 举例:你刚刚跟助理说的话,他转身就忘了,那这活儿没法干了。短期记忆就是 Agent 的会话历史记录
    • 作用:让 Agent 能联系上下文,理解一个持续进行的任务。它知道你刚刚让他查完机票,下一步就该查酒店了,而不是又从头开始。
  • 长期记忆(Long-Term Memory)
    • 举例:一个好的助理,不仅记得你刚说的话,还记得你 “喜欢靠窗的座位”、“对海鲜过敏”、“预算是每天 1000 元” 这些长期偏好。
    • 技术实现:通常使用向量数据库(Vector Database)。Agent 会将它在执行任务过程中学到的关键信息、你的个人偏好、成功的经验、失败的教训,都存进这个外部数据库里。
    • 作用:随着时间的推移,Agent 会变得越来越懂你,越来越有经验。它不再是一个通用的助理,而是一个为你量身定制的、独一无二的小跟班儿。

感知系统是 Agent 的情报官,负责收集和管理所有必要的信息,为大脑的决策提供信息弹药。

  

🔹3、规划(策略制定):任务分解与自我反思

这是 Agent 区别于简单 “问答机器” 的重要特征。大脑负责想出子任务,而规划模块则负责将这些子任务串成一个合理的行动链条,并能在执行过程中进行动态调整。

  • 任务分解(Task Decomposition)
    • 大脑说:“我们需要搞定机票。”
    • 规划模块会进一步细化:“1. 确定出发和返回日期;2. 查询各大航空公司的航班信息;3. 比较价格和时间;4. 选择最优方案。”
  • 自我反思与批判(Self-Reflection / Self-Critique)
    • 这是高级 Agent 才具备的能力。在行动之后,Agent 会停下来想一想
    • 举例:助理查完机票后,发现直飞的都特别贵。他不会直接把这个坏消息告诉你,他会自己反思:这个结果不符合客户的 “经济实惠” 的隐含要求。我的策略是不是有问题?我应该再查一下中转一次的航班,或者看看更换临近日期会不会更便宜。
    • 通过这种自我批判,Agent 能避免陷入死胡同,或者机械地执行一个错误的路径。

规划系统是 Agent 的参谋长,负责制定详细的作战计划,并随时根据战况进行调整。

    

🔹4、行动(与世界互动):工具使用

这是 Agent 的手和脚,是它将想法变为现实的唯一途径。

  • 组件:一系列可以被 AI 调用的外部工具或 API。
  • 常见的工具
    • search_engine():使用搜索引擎(谷歌、百度)上网查资料。
    • code_interpreter():运行 Python 代码,进行数据分析或计算。
    • database_query():查询公司的数据库。
    • api_booking.flight():调用订票网站的 API 来预订机票。
    • 甚至可以是 operate_robot_arm():控制一个机械臂!
  • 工作流程
    • a. 大脑和规划模块决定:“现在需要上网查一下东京的天气。”
    • b. 它会生成一个符合预定格式的工具调用指令,比如:search_engine(query="东京未来一周天气预报")
    • c. 外部的系统(我们的应用程序)监听到这个指令,就真的去执行了搜索操作。
    • d. 然后,系统把搜索结果(一段天气预报的文本)返回给 Agent。
    • e. Agent 的感知模块接收到这个新信息,并将其用于下一步的规划。

行动系统是 Agent 的特种部队,负责执行大脑下达的具体命令,与物理世界或数字世界进行交互,并带回战果。

  

三、实战 —— AI Agent 如何搞定旅行计划🔖


理论说完了,大家基本可以理解一个 AI Agent 是个啥了吧?接下来,咱们来看一个完整的、具体的例子。

你的目标: “帮我规划一个下周末去杭州的、经济实惠的两人三日游。”

Agent 的工作日志:

【循环 1】

  • 🧠 大脑 (思考):“收到任务:杭州、下周末、经济实惠、两人三日游。核心是‘规划’。我需要先确定交通和住宿,这是大头。”
  • ✏️ 规划 (计划):“第一步,查询往返杭州的交通方式及价格。”
  • 🦾 行动 (工具调用):search_tool(query="从[我的城市]到杭州的往返交通方式和价格")
  • 👀 感知 (观察):[系统返回搜索结果:高铁二等座约 300 元 / 人 / 单程,飞机经济舱约 600 元 / 人 / 单程。]

【循环 2】

  • 🧠 大脑 (思考):“观察到高铁比飞机便宜,符合‘经济实惠’的要求。交通方式确定为高铁。接下来是住宿。”
  • ✏️ 规划 (计划):“第二步,搜索杭州市中心附近、评价高且价格适中的酒店。”
  • 🦾 行动 (工具调用):hotel_search_api(city="杭州", days=3, price_range="500-800元", rating=">4.5")
  • 👀 感知 (观察):[系统返回了 3 家符合条件的酒店列表,包含名称、价格、地址。]

【循环 3】

  • 🧠 大脑 (思考):“酒店选项已拿到。现在需要规划每日行程。杭州的著名景点有西湖、灵隐寺、宋城等。”
  • ✏️ 规划 (计划):“第三步,基于酒店位置和景点分布,设计一个合理的三日游路线。”
  • 🦾 行动 (工具调用):map_api(start_point="[酒店A地址]", destinations=["西湖", "灵隐寺", "河坊街"],并结合内部知识进行路线编排。
  • 👀 感知 (观察):[系统返回了路线图和交通时间估算。]

【循环 N ……】

……Agent 会继续查询景点门票、美食推荐……

【最终循环】

  • 🧠 大脑 (思考):“所有信息都已集齐。交通、住宿、行程、美食、预算都已清晰。任务完成。”
  • ✏️ 规划 (计划):“最后一步,将所有信息整合成一份清晰的、图文并茂的旅行方案,并呈现给用户。”
  • 🦾 行动 (最终回答):“您好!根据您的‘经济实惠’要求,我为您规划了一份详细的杭州三人三日游方案。我们推荐乘坐高铁出行…… 住宿方面,为您挑选了三家备选酒店…… 每日行程安排如下:Day 1:…… 这份方案的总预算约为 XXXX 元。您看是否满意?如果需要,我可以立即为您预订高铁票和酒店。”

这回大家看明白了没?这就是一个 AI Agent 的典型工作流程。它不再需要你一步步地追问,而是像一个能干活儿的助理,把所有脏活累活都自己干完了,最后只把结果呈现给你。

  

四、Agent 的挑战与未来🔖


虽然 Agent 的理念如此强大,但为什么我们身边还没有普及像贾维斯那样的玩意儿呢?原因很简单 —— 要打造一个稳定、可靠的商用 Agent,挑战很大。

🔹1. 想不明白:规划的脆弱性

当前的 Agent 在面对非常长、非常复杂的任务链时,还是会迷路。它可能会陷入无限循环,或者在某一步卡住后不知道如何是好。提升长链条任务的规划能力,是目前的核心难题。回到 Harness 那一篇,讲的就是这个问题!

  

🔹2. 工具不好用:世界的复杂性

真实世界的 API 和工具,充满了各种预想不到的错误和异常。Agent 需要学会如何处理 “工具调用失败”、“网络超时” 等问题,这需要更强的鲁棒性

  

🔹3. 成本太高:超级助理的昂贵时薪

上面那个旅行规划的例子,可能需要调用几十次甚至上百次 LLM 的 API。目前,这会让一次任务的成本变得非常高昂。降低大模型的使用成本,是 Agent 大规模普及的前提。

  

🔹4. 安全与信任:如何给自主 AI 套上缰绳?

这是个大问题。当我们给予一个 AI 自主行动、使用工具(甚至是支付工具)的权力时,我们如何确保它的行为永远在我们的掌控之中,永远符合我们的利益和价值观?这是一个巨大的技术和伦理挑战。这又是 Harness Engineering 要解决的问题了!

  

五、来来来,总结一下🔖


今天,咱聊了 “AI Agent”。

  • 它与传统聊天机器人的本质区别在于,它是一个主动的、持续的目标执行者,而不仅仅是被动的问答机器。
  • 它由大脑(LLM)感知(记忆)、** 规划(策略)行动(工具)** 四大核心组件构成,形成一个持续循环的工作模式。
  • 它代表了 AI 的发展方向,从单纯的信息处理,走向了与真实世界交互的物理执行。
  • 虽然它还面临着规划能力、成本和安全等巨大挑战,但它为我们描绘了一个自主 AI 时代的清晰蓝图。