每天吃透一个 AI 知识点 ——AI Agent(智能体)评估

转载：小红书 AI产品赵哥

前言🔖

大家好，AI Agent（智能体）这个词在 2026 年火得一塌糊涂。从 OpenClaw 到 Hermes，从帮你写代码的 AI 程序员，到能帮你订机票、做研究的 AI 助理，是不是感觉已经百花齐放了？

很多朋友们都跃跃欲试，想自己手搓一个 AI Agent。但问题来了：我怎么知道我这个 AI Agent 靠不靠谱？

是不是发现它在某些任务上表现很好，在另一些任务上又蠢得离谱？
是不是除了靠自己手动一遍遍地试，就没别的办法来衡量它的好坏？

如果你有这些困惑，那么今天咱们聊的话题你一定感兴趣 —— 如何给 AI Agent 做评估（Evaluation）。

从本质上，对 Agent 进行评估主要是为了找出 Agent 存在的问题，这就像给 Agent 做体检一样，今天，咱们试图讲清楚以下几个问题：

为啥给 AI Agent 做评估这么难？到底难在哪？
一次专业的 “AI 体检” 都包含哪些项目？（名词扫盲）
代码型、对话型、研究型…… 不同类型的 AI Agent，体检的科室和手段有啥不同？
从零开始，如何一步步建立起你自己的 AI 体检中心 (Agent 评估体系)？

好了，大家准备好了吗？咱们发车了！

一、为啥给 AI Agent 做体检这么难？🔖

传统的软件测试，相对简单。你点一个按钮，它弹出一个窗口，结果是确定的、可预测的。

但 AI Agent，它具备自主性、智能性和灵活性，这既是它强大的原因，也是评估它的难点所在。

它是多动症，不是乖宝宝：一个 AI Agent 完成任务，不是一步到位。它会反复和环境互动（调用工具、修改状态、根据中间结果调整策略……）这个过程叫多轮交互（multi-turn）。你的任何一次小改动，都可能在这个长长的链条上，引发蝴蝶效应。
它是创意家，不是复读机：最要命的是，厉害的 AI Agent 不按套路出牌！你给它设定的标准答案是 A，它可能会想出一个更牛的、你压根没想到的解决方案 B。

一个真实的例子：

Anthropic 公司在测试他们的 AI Agent 时，给它一个任务：订一张去某个地方的机票，但附加了一个复杂的、几乎不可能满足的退改签政策。按照预设的标准答案，Agent 应该识别出无法满足，然后报告失败。
结果呢？这个聪明的 Agent 居然阅读了航空公司的整个政策文档，发现了一个隐藏的漏洞，通过一种迂回的方式，完美地为用户订好了票，还满足了那个苛刻的政策！
从评测系统的角度看，它失败了，因为它没按标准答案走。但从用户的角度看，它的操作那是相当完美！
你看，这种创造性让简单的对错判断变得非常困难。

它是情绪小子，状态不稳定：由于大模型的不确定性（non-determinism），你用同样的问题问它两次，它给的答案和解决路径都可能不一样。这一次成功了，下一次可能就失败了。这给评估带来了巨大的噪音。

所以，给 AI Agent 做体检，绝不是简单地做几道选择题。它需要一套系统化的评估体系。

二、一套专业的 AI 体检都包含啥？🔖

为了让我们后面的讨论在同一个频道上，我们先来快速过一遍 AI 体检中的一些术语。

体检中的关键角色和道具：

任务（Task）：也叫测试用例。就是你给 AI Agent 出的一道具体的考题。比如，“请帮我修复这个代码 Bug”、“请帮我预订明天下午两点从北京到上海的机票”。一道好的考题，必须有明确的输入和成功标准。
试用（Trial）：AI Agent 尝试做这道题的一次完整过程。因为 AI 表现不稳定，我们通常会让它多试几次（比如考 3 遍），来得到更可靠的结果。
记录（Transcript / Trace）：这是最重要的病历！它详细记录了 AI 在一次试用中的所有思考和动作：它跟你的对话、它的内心思考（Chain of Thought）、它调用了哪些工具、工具返回了什么结果…… 所有的一切，都要被完整地记录下来。
最终结果（Outcome）：AI Agent 折腾完一通后，在真实世界里留下的最终状态。比如，Agent 在对话里说 “机票已经订好了”，这只是它的口头承诺。而最终结果是，你的航旅 App 里，是否真的出现了一张已出票的订单。我们要看的是疗效，不是广告。
评分器（Grader）：这就是体检医生。它是一段逻辑代码或另一个 AI 模型，用来根据预设的标准，给 AI Agent 的表现打分。一道题可以有好几个评分器，从不同维度打分。
评估框架（Evaluation Harness）：整个自动化体检中心的基础设施。它负责管理所有考题、安排考试、并发执行、记录全过程、调用评分器打分、最后汇总出体检报告。
AI Agent 框架（Agent Harness / Scaffold）：这个是 AI Agent 能动起来的驱动系统。它负责接收你的指令、组织 AI 大脑（LLM）和手脚（工具）协同工作。我们评估一个 AI Agent 时，其实是在评估 AI 模型 + 这个驱动框架的整体表现。
评估套件（Evaluation Suite）：一套精心设计的模拟考卷。这套卷子里的所有题目，都围绕着一个特定的能力或场景。比如，“客服能力评估套件” 里可能就包含了退款、投诉、产品咨询等各种场景的考题。

好了，有了这些基本概念，我们就可以进入深水区了！

三、体检科室 —— 三大核心评分器🔖

给 AI Agent 打分，不能只靠一种方法。一个成熟的评估体系，通常会组合使用以下三种评分器，就像一个会诊的专家团队。

🔹3.1 代码评分器（Code-based Graders）：客观、快速的仪器检测

这是最基础、最客观的评分方式。它通过写代码来检查一些硬指标。

检查方法：

字符串匹配：检查 AI 的回答里是否包含了某个关键词（比如 “退款成功”）。
单元测试：对于代码生成任务，直接跑测试用例，看代码能不能通过。这是最刚性的标准。
静态分析：用工具检查生成的代码是否符合规范、有没有安全漏洞。
状态检查：直接去查数据库或者文件系统，看最终结果是否符合预期（比如，用户的账户余额是不是真的少了 100 块）。
工具调用检查：检查 AI 是否调用了正确的工具、传递了正确的参数。

优点：

快、便宜、客观、可复现。没有感情，铁面无私。
非常适合检查那些有明确对错的事情。

缺点：

死板，不够智能。容易误伤 “有创意的” 好答案。比如，你期望答案是 “96.12”，AI 给出了更精确的 “96.1249”，它可能会判错。
无法评估主观感受。比如，AI 的语气是否礼貌、回答是否全面。

🔹3.2 模型评分器（Model-based Graders）：让 AI 评估 AI

这是现在越来越流行的方式：用一个更强大的 AI 模型，来评估另一个 AI 模型的表现。也叫 LLM-as-a-judge。

检查方法：

基于评分标准（Rubric-based）：你给裁判 AI 一份详细的评分标准（比如，从同理心、解决效率、表达清晰度三个维度，各打 1-5 分），让它照着标准打分。
自然语言断言：直接问裁判 AI 一些是非问题，比如 “你认为 Agent 的回答是否解决了用户的问题？”

两两比较（Pairwise Comparison）：把两个不同 Agent 的回答放在一起，让裁判 AI 选出哪个更好。这是训练偏好模型（RLHF）的核心步骤。

优点：

灵活，有人味儿：能理解语言的细微差别和上下文，可以评估那些开放式、没有标准答案的主观问题。
可扩展性强：只要 Prompt 写得好，理论上可以评估任何维度。

缺点：

有不确定性：裁判 AI 本身也有情绪，两次打分可能不一样。
成本更高：调用 API 是要花钱的。
需要校准：你得定期找一些人类专家来抽查裁判 AI 的打分，看看它有没有乱判，确保它的标准和人类一致。

🔹3.3 人类评分器（Human Graders）：一锤定音

无论 AI 多强大，人类专家的判断，永远是最终的黄金标准。

检查方法：

专家审查：邀请领域专家（比如资深程序员、金牌客服）来审查 AI 的病历，给出最权威的判断。
众包判断：对于一些常识性问题，可以在众包平台上发布任务，让多人投票打分。

A/B 测试：把两个版本的 Agent 同时推送给真实用户，看哪个版本的用户满意度、任务完成率更高。这是检验疗效的手段。

优点：

质量最高，最符合真实用户的感受。
是校准模型评分器的唯一标准。

缺点：

又贵又慢。专家的时间是非常宝贵的。
难以规模化。

一个健康的评估体系，一定是三者结合的：

用代码评分器保下限（保证基础功能正确）
用模型评分器提上限（评估综合质量和主观感受）
用人类评分器定标准（校准模型裁判，发现未知问题）

四、分科室体检 —— 不同类型的 Agent，怎么检？🔖

不同的 AI Agent，就像不同科室的医生，各有专长，体检的侧重点也完全不同。我们来看几个主流的类型。

🔹4.1 代码 Agent（比如 AI 程序员）：骨科 + 神经科

核心任务：写代码、改 Bug、跑测试。
体检重点：结果的正确性是第一位的。
常用仪器：
- 单元测试（最重要！）：这是黄金标准。代码跑不通或者测试过不了，一票否决。
- 静态分析工具：检查代码风格、潜在 Bug、安全漏洞。
- 模型评分器（评估代码质量）：光跑通还不行，代码写得是不是优雅、可维护、高效？这得靠 AI 专家来看了。可以给它一份代码质量评分标准，让它打分。
- 状态检查：比如修复了一个安全漏洞，得检查一下系统的安全日志里，是否真的记录了攻击被阻断的事件。

🔹4.2 对话 Agent（比如 AI 客服、AI 销售）：心理科 + 内科

核心任务：和人聊天，解决问题，达成目标（比如退款、下单）。
体检重点：任务完成度和交互质量并重。
常用仪器：
- 模型评分器（评估对话质量，最重要！）：这是主战场。AI 客服有没有表现出同理心？解释方案是否清晰？有没有主动引导？这些主观感受，最适合用 AI 裁判 + 详细评分标准来评估。
- 状态检查：客户说要退款，最后系统里的订单状态是不是真的变成了 “已退款”？这是硬指标。
- 工具调用检查：AI 客服有没有先调用 “身份验证” 工具，再调用 “处理退款” 工具？顺序不能错。
- 多轮对话模拟：一个强大的评估方法是，让另一个 AI 来扮演刁钻的客户，和客服 Agent 进行多轮对抗性的对话，以此来压力测试客服 Agent 的极限。

🔹4.3 研究 Agent（比如 AI 分析师）：全科 + 影像科

核心任务：收集信息、整合分析、生成报告。
体检重点：信息的准确性、全面性和来源可靠性。
常用仪器：
- 模型评分器（评估综合质量）：这是最复杂的场景，几乎只能靠 AI 裁判。
  - 事实一致性检查：报告里的每一句话，是不是都能在它引用的原始资料里找到依据？这是防止 AI 一本正经地胡说八道的关键。
  - 覆盖度检查：一份好的市场分析报告，是不是覆盖了市场规模、主要玩家、未来趋势这几个关键点？
  - 来源质量检查：它引用的信息，是来自权威机构的报告，还是某个不知名论坛的帖子？
- 人类专家审查（不可或缺）：对于研究报告这类主观性极强的产出，必须定期请人类专家来校准 AI 裁判的判断，否则很容易跑偏。

🔹4.4 计算机使用 Agent（比如能帮你操作 PS、Excel 的 AI）：康复科

核心任务：通过模拟鼠标点击、键盘输入来操作图形界面软件。
体检重点：最终操作结果是否正确。
常用仪器：
- 环境状态检查（最重要！）：任务是 “在 Excel 里把 A 列和 B 列的数据相加，结果放 C 列”，评估时就直接检查最终 Excel 文件里 C 列的数据对不对。
- UI 元素检查：检查最终界面上，某个按钮是不是被点击了，某个文本框里是不是填上了正确的内容。
- 效率评估：是直接从软件的 DOM 结构里提取信息快，还是通过截屏识别快？评估 Agent 是否在不同场景下选择了最优的交互策略。

五、从 0 到 1 手把手教你搭建自己的 AI 评估体系🔖

现在，咱们从 0 到 1 搭建一套 AI Agent 评估体系，是骡子是马，拉出来溜溜！具体来讲，搭建一套 Agent 评估体系，可以遵循下面八步走策略：

🔹第一阶段：收集你的初始模拟考卷（0-3 步）

第 0 步：尽早开始，莫等闲

很多团队觉得，我得先攒够几百个测试用例才能开始做评估。那很可能就错了！

对于一个刚起步的 Agent，哪怕只有 20-50 个从真实失败案例里提炼出的简单任务，就足够了。早期 Agent 的改动，效果往往很明显，小样本就能看出问题。你等得越久，后面要从一个复杂的线上系统里逆向工程出成功标准，就越痛苦。

第 1 步：从你手动测试的地方开始

你的第一批考题从哪来？

你每次发版前，手动检查的那些核心功能。
你的用户在社群里、工单里抱怨的那些问题和 Bug。

把这些真实的、带着用户痛点的场景，转换成标准化的测试用 EVAL。

第 2 步：写出没有歧义的考题和参考答案

这是最考验功力的一步。一个好的考题（Task）应该是：两个领域专家背对背独立判断，能得出完全一致的 “通过 / 失败” 结论。

避免模糊：不要说 “让代码更好看”，要说 “让代码符合 PEP8 规范”。
提供完整信息：如果任务是写个脚本，要明确告诉 AI 脚本该保存到哪个路径，否则评分器可能会因为找不到文件而判错。
创建参考答案：对于每个任务，你自己（或专家）先做一个完美的参考答案。这个答案有两个作用：
- 证明这个任务是可解的；
- 用来验证你的评分器是不是配置正确。

第 3 步：建立平衡的题库

你的考卷里，不能只有一种类型的题。

比如，你测试 AI 客服，不能只考它应该退款的场景，还得考它不该退款的场景（比如超过了退款期限），看它会不会乱操作。

要保证正例和反例的平衡，否则你可能会优化出一个只会点头的 “点头先生” 或只会摇头的 “摇头先生”。

🔹第二阶段：设计你的体检设备和流程（4-5 步）

第 4 步：搭建一个稳定、隔离的体检环境

环境一致性：确保你的 Agent 在评估环境里的表现，和它在生产环境里的表现基本一致（比如，能调用的工具、能访问的数据权限）。
环境隔离：每一次试用（Trial），都必须在一个全新的、干净的环境里开始。不能让上一次考试留下的文件、缓存、数据库记录，干扰到下一次考试。我们之前就发现过，Agent 通过偷看上一次试用留下的 Git 历史来作弊。

第 5 步：深思熟虑地设计你的评分器（Grader）

组合拳：如前所述，大胆地组合使用代码、模型和人类评分器。
关注结果，而非路径：尽量避免去检查 AI 是否严格按照你预想的步骤来执行。AI 的魅力就在于它的创造性。只要最终结果是对的，就应该给分。过度限制路径，会扼杀创新。
引入部分学分：一个任务可能包含多个子步骤。比如 AI 客服，正确验证了客户身份（+20 分），准确识别了问题（+30 分），但最后退款操作失败了（-50 分）。这种打分方式，比简单的 “0 or 100 分” 能提供更丰富的改进信号。
小心评分器的漏洞：你的评分器本身也可能有 Bug。比如，论文里提到一个例子，评分器要求结果是 “96.124991…”，但 Agent 给出了四舍五入后的 “96.12”，结果被判错。还有的例子，任务要求 Agent 优化到某个分数线即可，结果有的模型傻啦吧唧地刚好优化到那里就停了，得分反而不如那些用力过猛的模型。这些都需要你仔细检查和修正。

🔹第三阶段：长期运营你的体检中心（6-8 步）

第 6 步：一定要看病历（Transcript）

这是最最最重要的一点，这是最最最重要的一点，这是最最最重要的一点，重要的事情说三遍！

不要只看最后的分数！你必须花时间去阅读那些失败案例的病历，也就是完整的交互记录。

一个失败的分数，告诉你出事了。而病历，告诉你 “出的是什么事，为什么出的事”。
当你发现一个测试用例，AI 试了 100 次都过不了，很可能不是 AI 太笨，而是你的考题出错了，或者评分器有 Bug。只有通过读病历，你才能发现这些隐藏的问题。
养成定期抽查病历的习惯，这是培养你对 Agent 行为直觉的最好方式。

第 7 步：警惕评估饱和

当你的 Agent 在某个评估套件上的分数接近 100% 时，要警惕了。这不一定代表你的 Agent 已经完美了，而可能意味着这套模拟卷已经太简单了，评估已经饱和了，无法再为你的改进提供任何有价值的信号。

这时候，你就需要：

增加更难的、更有挑战性的新考题。
把这套已经饱和的能力评估卷，升级成一套回归测试卷，相当于毕业了。它的新使命，是确保你的 Agent 在后续的更新中，不会把已经学会的东西给忘了。

第 8 步：让评估成为一种活的文化

一个健康的评估体系，需要持续的维护和投入。

明确责任人：最好有专门的团队负责核心的评估基础设施，而各个产品和业务团队，负责贡献和维护自己领域的考题。
- 拥抱评估驱动开发（EDD）：在开发一个新功能之前，先写出评估这个功能的测试用 EVAL。这就相当于你先把靶子立好，然后再去造箭。这样做，能极大地明确开发目标，避免团队在需求理解上产生偏差。
全员参与：让算法、开发、产品经理、客服、销售，甚至非技术人员，都能方便地贡献考题。他们离用户最近，最懂用户的真实痛点。可以用 Claude Code 这样的工具，让他们用自然语言就能提交一个新的测试用例。

六、来来来，总结一下吧！🔖

回到我们最初的问题：如何知道我的 AI Agent 到底行不行？

答案就是：停止猜测，开始测量。

没有评估体系的团队，就像在黑夜里开车，只能靠感觉和运气，遇到问题再紧急刹车，修好一个坑，又掉进另一个坑。

而拥有了良好评估体系的团队，则像是拥有了最先进的车载雷达和 GPS 导航。每一次迭代，都有清晰的数据指引；每一次更新，都有扎实的回归测试保驾护航；每一次模型升级，都能在几天内完成评估和上线，而不是几周的手动测试。

评估，是将感觉 Agent 变差了这种模糊的主观感受，转化为可行动、可量化的工程问题。

建立评估体系的前期投入是巨大的，但它的价值会随着时间的推移，以复利的形式回报给你。

AI Agent 的评估领域，本身也在飞速发展。随着 Agent 能处理的任务越来越长、越来越主观，我们的评估方法也需要不断进化。

92IT

Just love IT.

每天吃透一个 AI 知识点 ——AI Agent(智能体)评估