转载:小红书 AI产品赵哥
前言🔖
大家好,AI Agent(智能体)这个词在 2026 年火得一塌糊涂。从 OpenClaw 到 Hermes,从帮你写代码的 AI 程序员,到能帮你订机票、做研究的 AI 助理,是不是感觉已经百花齐放了?
很多朋友们都跃跃欲试,想自己手搓一个 AI Agent。但问题来了:我怎么知道我这个 AI Agent 靠不靠谱?
- 是不是发现它在某些任务上表现很好,在另一些任务上又蠢得离谱?
- 是不是除了靠自己手动一遍遍地试,就没别的办法来衡量它的好坏?
如果你有这些困惑,那么今天咱们聊的话题你一定感兴趣 —— 如何给 AI Agent 做评估(Evaluation)。
从本质上,对 Agent 进行评估主要是为了找出 Agent 存在的问题,这就像给 Agent 做体检一样,今天,咱们试图讲清楚以下几个问题:
- 为啥给 AI Agent 做评估这么难?到底难在哪?
- 一次专业的 “AI 体检” 都包含哪些项目?(名词扫盲)
- 代码型、对话型、研究型…… 不同类型的 AI Agent,体检的科室和手段有啥不同?
- 从零开始,如何一步步建立起你自己的 AI 体检中心 (Agent 评估体系)?
好了,大家准备好了吗?咱们发车了!
一、为啥给 AI Agent 做体检这么难?🔖
传统的软件测试,相对简单。你点一个按钮,它弹出一个窗口,结果是确定的、可预测的。
但 AI Agent,它具备自主性、智能性和灵活性,这既是它强大的原因,也是评估它的难点所在。
- 它是多动症,不是乖宝宝:一个 AI Agent 完成任务,不是一步到位。它会反复和环境互动(调用工具、修改状态、根据中间结果调整策略……)这个过程叫多轮交互(multi-turn)。你的任何一次小改动,都可能在这个长长的链条上,引发蝴蝶效应。
- 它是创意家,不是复读机:最要命的是,厉害的 AI Agent 不按套路出牌!你给它设定的标准答案是 A,它可能会想出一个更牛的、你压根没想到的解决方案 B。
一个真实的例子:
Anthropic 公司在测试他们的 AI Agent 时,给它一个任务:订一张去某个地方的机票,但附加了一个复杂的、几乎不可能满足的退改签政策。按照预设的标准答案,Agent 应该识别出无法满足,然后报告失败。
结果呢?这个聪明的 Agent 居然阅读了航空公司的整个政策文档,发现了一个隐藏的漏洞,通过一种迂回的方式,完美地为用户订好了票,还满足了那个苛刻的政策!
从评测系统的角度看,它失败了,因为它没按标准答案走。但从用户的角度看,它的操作那是相当完美!
你看,这种创造性让简单的对错判断变得非常困难。
- 它是情绪小子,状态不稳定:由于大模型的不确定性(non-determinism),你用同样的问题问它两次,它给的答案和解决路径都可能不一样。这一次成功了,下一次可能就失败了。这给评估带来了巨大的噪音。
所以,给 AI Agent 做体检,绝不是简单地做几道选择题。它需要一套系统化的评估体系。
二、一套专业的 AI 体检都包含啥?🔖
为了让我们后面的讨论在同一个频道上,我们先来快速过一遍 AI 体检中的一些术语。
体检中的关键角色和道具:
- 任务(Task):也叫测试用例。就是你给 AI Agent 出的一道具体的考题。比如,“请帮我修复这个代码 Bug”、“请帮我预订明天下午两点从北京到上海的机票”。一道好的考题,必须有明确的输入和成功标准。
- 试用(Trial):AI Agent 尝试做这道题的一次完整过程。因为 AI 表现不稳定,我们通常会让它多试几次(比如考 3 遍),来得到更可靠的结果。
- 记录(Transcript / Trace):这是最重要的病历!它详细记录了 AI 在一次试用中的所有思考和动作:它跟你的对话、它的内心思考(Chain of Thought)、它调用了哪些工具、工具返回了什么结果…… 所有的一切,都要被完整地记录下来。
- 最终结果(Outcome):AI Agent 折腾完一通后,在真实世界里留下的最终状态。比如,Agent 在对话里说 “机票已经订好了”,这只是它的口头承诺。而最终结果是,你的航旅 App 里,是否真的出现了一张已出票的订单。我们要看的是疗效,不是广告。
- 评分器(Grader):这就是体检医生。它是一段逻辑代码或另一个 AI 模型,用来根据预设的标准,给 AI Agent 的表现打分。一道题可以有好几个评分器,从不同维度打分。
- 评估框架(Evaluation Harness):整个自动化体检中心的基础设施。它负责管理所有考题、安排考试、并发执行、记录全过程、调用评分器打分、最后汇总出体检报告。
- AI Agent 框架(Agent Harness / Scaffold):这个是 AI Agent 能动起来的驱动系统。它负责接收你的指令、组织 AI 大脑(LLM)和手脚(工具)协同工作。我们评估一个 AI Agent 时,其实是在评估 AI 模型 + 这个驱动框架的整体表现。
- 评估套件(Evaluation Suite):一套精心设计的模拟考卷。这套卷子里的所有题目,都围绕着一个特定的能力或场景。比如,“客服能力评估套件” 里可能就包含了退款、投诉、产品咨询等各种场景的考题。
好了,有了这些基本概念,我们就可以进入深水区了!
三、体检科室 —— 三大核心评分器🔖
给 AI Agent 打分,不能只靠一种方法。一个成熟的评估体系,通常会组合使用以下三种评分器,就像一个会诊的专家团队。
🔹3.1 代码评分器(Code-based Graders):客观、快速的仪器检测
这是最基础、最客观的评分方式。它通过写代码来检查一些硬指标。
检查方法:
- 字符串匹配:检查 AI 的回答里是否包含了某个关键词(比如 “退款成功”)。
- 单元测试:对于代码生成任务,直接跑测试用例,看代码能不能通过。这是最刚性的标准。
- 静态分析:用工具检查生成的代码是否符合规范、有没有安全漏洞。
- 状态检查:直接去查数据库或者文件系统,看最终结果是否符合预期(比如,用户的账户余额是不是真的少了 100 块)。
- 工具调用检查:检查 AI 是否调用了正确的工具、传递了正确的参数。
优点:
- 快、便宜、客观、可复现。没有感情,铁面无私。
- 非常适合检查那些有明确对错的事情。
缺点:
- 死板,不够智能。容易误伤 “有创意的” 好答案。比如,你期望答案是 “96.12”,AI 给出了更精确的 “96.1249”,它可能会判错。
- 无法评估主观感受。比如,AI 的语气是否礼貌、回答是否全面。
🔹3.2 模型评分器(Model-based Graders):让 AI 评估 AI
这是现在越来越流行的方式:用一个更强大的 AI 模型,来评估另一个 AI 模型的表现。也叫 LLM-as-a-judge。
检查方法:
- 基于评分标准(Rubric-based):你给裁判 AI 一份详细的评分标准(比如,从同理心、解决效率、表达清晰度三个维度,各打 1-5 分),让它照着标准打分。
- 自然语言断言:直接问裁判 AI 一些是非问题,比如 “你认为 Agent 的回答是否解决了用户的问题?”
- 两两比较(Pairwise Comparison):把两个不同 Agent 的回答放在一起,让裁判 AI 选出哪个更好。这是训练偏好模型(RLHF)的核心步骤。
优点:
- 灵活,有人味儿:能理解语言的细微差别和上下文,可以评估那些开放式、没有标准答案的主观问题。
- 可扩展性强:只要 Prompt 写得好,理论上可以评估任何维度。
缺点:
- 有不确定性:裁判 AI 本身也有情绪,两次打分可能不一样。
- 成本更高:调用 API 是要花钱的。
- 需要校准:你得定期找一些人类专家来抽查裁判 AI 的打分,看看它有没有乱判,确保它的标准和人类一致。
🔹3.3 人类评分器(Human Graders):一锤定音
无论 AI 多强大,人类专家的判断,永远是最终的黄金标准。
检查方法:
- 专家审查:邀请领域专家(比如资深程序员、金牌客服)来审查 AI 的病历,给出最权威的判断。
- 众包判断:对于一些常识性问题,可以在众包平台上发布任务,让多人投票打分。
- A/B 测试:把两个版本的 Agent 同时推送给真实用户,看哪个版本的用户满意度、任务完成率更高。这是检验疗效的手段。
优点:
- 质量最高,最符合真实用户的感受。
- 是校准模型评分器的唯一标准。
缺点:
- 又贵又慢。专家的时间是非常宝贵的。
- 难以规模化。
一个健康的评估体系,一定是三者结合的:
- 用代码评分器保下限(保证基础功能正确)
- 用模型评分器提上限(评估综合质量和主观感受)
- 用人类评分器定标准(校准模型裁判,发现未知问题)
四、分科室体检 —— 不同类型的 Agent,怎么检?🔖
不同的 AI Agent,就像不同科室的医生,各有专长,体检的侧重点也完全不同。我们来看几个主流的类型。
🔹4.1 代码 Agent(比如 AI 程序员):骨科 + 神经科
- 核心任务:写代码、改 Bug、跑测试。
- 体检重点:结果的正确性是第一位的。
- 常用仪器:
- 单元测试(最重要!):这是黄金标准。代码跑不通或者测试过不了,一票否决。
- 静态分析工具:检查代码风格、潜在 Bug、安全漏洞。
- 模型评分器(评估代码质量):光跑通还不行,代码写得是不是优雅、可维护、高效?这得靠 AI 专家来看了。可以给它一份代码质量评分标准,让它打分。
- 状态检查:比如修复了一个安全漏洞,得检查一下系统的安全日志里,是否真的记录了攻击被阻断的事件。
🔹4.2 对话 Agent(比如 AI 客服、AI 销售):心理科 + 内科
- 核心任务:和人聊天,解决问题,达成目标(比如退款、下单)。
- 体检重点:任务完成度和交互质量并重。
- 常用仪器:
- 模型评分器(评估对话质量,最重要!):这是主战场。AI 客服有没有表现出同理心?解释方案是否清晰?有没有主动引导?这些主观感受,最适合用 AI 裁判 + 详细评分标准来评估。
- 状态检查:客户说要退款,最后系统里的订单状态是不是真的变成了 “已退款”?这是硬指标。
- 工具调用检查:AI 客服有没有先调用 “身份验证” 工具,再调用 “处理退款” 工具?顺序不能错。
- 多轮对话模拟:一个强大的评估方法是,让另一个 AI 来扮演刁钻的客户,和客服 Agent 进行多轮对抗性的对话,以此来压力测试客服 Agent 的极限。
🔹4.3 研究 Agent(比如 AI 分析师):全科 + 影像科
- 核心任务:收集信息、整合分析、生成报告。
- 体检重点:信息的准确性、全面性和来源可靠性。
- 常用仪器:
- 模型评分器(评估综合质量):这是最复杂的场景,几乎只能靠 AI 裁判。
- 事实一致性检查:报告里的每一句话,是不是都能在它引用的原始资料里找到依据?这是防止 AI 一本正经地胡说八道的关键。
- 覆盖度检查:一份好的市场分析报告,是不是覆盖了市场规模、主要玩家、未来趋势这几个关键点?
- 来源质量检查:它引用的信息,是来自权威机构的报告,还是某个不知名论坛的帖子?
- 人类专家审查(不可或缺):对于研究报告这类主观性极强的产出,必须定期请人类专家来校准 AI 裁判的判断,否则很容易跑偏。
- 模型评分器(评估综合质量):这是最复杂的场景,几乎只能靠 AI 裁判。
🔹4.4 计算机使用 Agent(比如能帮你操作 PS、Excel 的 AI):康复科
- 核心任务:通过模拟鼠标点击、键盘输入来操作图形界面软件。
- 体检重点:最终操作结果是否正确。
- 常用仪器:
- 环境状态检查(最重要!):任务是 “在 Excel 里把 A 列和 B 列的数据相加,结果放 C 列”,评估时就直接检查最终 Excel 文件里 C 列的数据对不对。
- UI 元素检查:检查最终界面上,某个按钮是不是被点击了,某个文本框里是不是填上了正确的内容。
- 效率评估:是直接从软件的 DOM 结构里提取信息快,还是通过截屏识别快?评估 Agent 是否在不同场景下选择了最优的交互策略。
五、从 0 到 1 手把手教你搭建自己的 AI 评估体系🔖
现在,咱们从 0 到 1 搭建一套 AI Agent 评估体系,是骡子是马,拉出来溜溜!具体来讲,搭建一套 Agent 评估体系,可以遵循下面八步走策略:
🔹第一阶段:收集你的初始模拟考卷(0-3 步)
第 0 步:尽早开始,莫等闲
很多团队觉得,我得先攒够几百个测试用例才能开始做评估。那很可能就错了!
对于一个刚起步的 Agent,哪怕只有 20-50 个从真实失败案例里提炼出的简单任务,就足够了。早期 Agent 的改动,效果往往很明显,小样本就能看出问题。你等得越久,后面要从一个复杂的线上系统里逆向工程出成功标准,就越痛苦。
第 1 步:从你手动测试的地方开始
你的第一批考题从哪来?
- 你每次发版前,手动检查的那些核心功能。
- 你的用户在社群里、工单里抱怨的那些问题和 Bug。
把这些真实的、带着用户痛点的场景,转换成标准化的测试用 EVAL。
第 2 步:写出没有歧义的考题和参考答案
这是最考验功力的一步。一个好的考题(Task)应该是:两个领域专家背对背独立判断,能得出完全一致的 “通过 / 失败” 结论。
- 避免模糊:不要说 “让代码更好看”,要说 “让代码符合 PEP8 规范”。
- 提供完整信息:如果任务是写个脚本,要明确告诉 AI 脚本该保存到哪个路径,否则评分器可能会因为找不到文件而判错。
- 创建参考答案:对于每个任务,你自己(或专家)先做一个完美的参考答案。这个答案有两个作用:
- 证明这个任务是可解的;
- 用来验证你的评分器是不是配置正确。
第 3 步:建立平衡的题库
你的考卷里,不能只有一种类型的题。
比如,你测试 AI 客服,不能只考它应该退款的场景,还得考它不该退款的场景(比如超过了退款期限),看它会不会乱操作。
要保证正例和反例的平衡,否则你可能会优化出一个只会点头的 “点头先生” 或只会摇头的 “摇头先生”。
🔹第二阶段:设计你的体检设备和流程(4-5 步)
第 4 步:搭建一个稳定、隔离的体检环境
- 环境一致性:确保你的 Agent 在评估环境里的表现,和它在生产环境里的表现基本一致(比如,能调用的工具、能访问的数据权限)。
- 环境隔离:每一次试用(Trial),都必须在一个全新的、干净的环境里开始。不能让上一次考试留下的文件、缓存、数据库记录,干扰到下一次考试。我们之前就发现过,Agent 通过偷看上一次试用留下的 Git 历史来作弊。
第 5 步:深思熟虑地设计你的评分器(Grader)
- 组合拳:如前所述,大胆地组合使用代码、模型和人类评分器。
- 关注结果,而非路径:尽量避免去检查 AI 是否严格按照你预想的步骤来执行。AI 的魅力就在于它的创造性。只要最终结果是对的,就应该给分。过度限制路径,会扼杀创新。
- 引入部分学分:一个任务可能包含多个子步骤。比如 AI 客服,正确验证了客户身份(+20 分),准确识别了问题(+30 分),但最后退款操作失败了(-50 分)。这种打分方式,比简单的 “0 or 100 分” 能提供更丰富的改进信号。
- 小心评分器的漏洞:你的评分器本身也可能有 Bug。比如,论文里提到一个例子,评分器要求结果是 “96.124991…”,但 Agent 给出了四舍五入后的 “96.12”,结果被判错。还有的例子,任务要求 Agent 优化到某个分数线即可,结果有的模型傻啦吧唧地刚好优化到那里就停了,得分反而不如那些用力过猛的模型。这些都需要你仔细检查和修正。
🔹第三阶段:长期运营你的体检中心(6-8 步)
第 6 步:一定要看病历(Transcript)
这是最最最重要的一点,这是最最最重要的一点,这是最最最重要的一点,重要的事情说三遍!
不要只看最后的分数!你必须花时间去阅读那些失败案例的病历,也就是完整的交互记录。
- 一个失败的分数,告诉你出事了。而病历,告诉你 “出的是什么事,为什么出的事”。
- 当你发现一个测试用例,AI 试了 100 次都过不了,很可能不是 AI 太笨,而是你的考题出错了,或者评分器有 Bug。只有通过读病历,你才能发现这些隐藏的问题。
- 养成定期抽查病历的习惯,这是培养你对 Agent 行为直觉的最好方式。
第 7 步:警惕评估饱和
当你的 Agent 在某个评估套件上的分数接近 100% 时,要警惕了。这不一定代表你的 Agent 已经完美了,而可能意味着这套模拟卷已经太简单了,评估已经饱和了,无法再为你的改进提供任何有价值的信号。
这时候,你就需要:
- 增加更难的、更有挑战性的新考题。
- 把这套已经饱和的能力评估卷,升级成一套回归测试卷,相当于毕业了。它的新使命,是确保你的 Agent 在后续的更新中,不会把已经学会的东西给忘了。
第 8 步:让评估成为一种活的文化
一个健康的评估体系,需要持续的维护和投入。
- 明确责任人:最好有专门的团队负责核心的评估基础设施,而各个产品和业务团队,负责贡献和维护自己领域的考题。
- 拥抱评估驱动开发(EDD):在开发一个新功能之前,先写出评估这个功能的测试用 EVAL。这就相当于你先把靶子立好,然后再去造箭。这样做,能极大地明确开发目标,避免团队在需求理解上产生偏差。
- 全员参与:让算法、开发、产品经理、客服、销售,甚至非技术人员,都能方便地贡献考题。他们离用户最近,最懂用户的真实痛点。可以用 Claude Code 这样的工具,让他们用自然语言就能提交一个新的测试用例。
六、来来来,总结一下吧!🔖
回到我们最初的问题:如何知道我的 AI Agent 到底行不行?
答案就是:停止猜测,开始测量。
没有评估体系的团队,就像在黑夜里开车,只能靠感觉和运气,遇到问题再紧急刹车,修好一个坑,又掉进另一个坑。
而拥有了良好评估体系的团队,则像是拥有了最先进的车载雷达和 GPS 导航。每一次迭代,都有清晰的数据指引;每一次更新,都有扎实的回归测试保驾护航;每一次模型升级,都能在几天内完成评估和上线,而不是几周的手动测试。
评估,是将感觉 Agent 变差了这种模糊的主观感受,转化为可行动、可量化的工程问题。
建立评估体系的前期投入是巨大的,但它的价值会随着时间的推移,以复利的形式回报给你。
AI Agent 的评估领域,本身也在飞速发展。随着 Agent 能处理的任务越来越长、越来越主观,我们的评估方法也需要不断进化。