每天吃透一个 AI 知识点 —— AI Benchmark

转载：小红书 AI产品赵哥

前言🔖

最近你的手机是不是被这类标题刷屏了：

“XXX 模型震撼发布，XXX 项能力超越 GPT-5！”
“国产之光！这款开源大模型在 XXX 榜单上登顶！”
“一夜之间，GPT-5 的霸主地位岌岌可危？”

每次看到这种新闻，你是不是都感觉热血沸腾，又有点一头雾水？点进去一看，里面全是各种看不懂的英文缩写，什么 MMLU、GSM8K、HumanEval…… 后面还跟着一堆百分比和得分。

很多人问我：”这些跑分、榜单到底是什么？靠谱吗？一个模型拿了 No.1，是不是就是 zui 强的了？”

问到点子上了！这个问题，触及到了我们如何衡量和比较 AI 能力的核心，也就是 AI Benchmark（人工智能基准测试）。

好了，大家准备好了吗？咱们发车了！

一、啥是 Benchmark？AI 世界的一场高考🔖

要理解 Benchmark，我们先回顾一下我们最熟悉的 —— 高考。

在一个没有高考的世界里，每个高中都会说自己的学生最优秀。A 学校说：“我们学校的张三，诗词歌赋样样精通！” B 学校说：“我们学校的李四，奥数竞赛全国第一！” 这时候，清华北大这些大学就头疼了：我到底该信谁的？张三和李四到底谁更综合一点？

为了解决这个问题，一个标准化的、统一的、公平的选拔体系诞生了，那就是高考。

💡 AI Benchmark，就是 AI 大模型世界里的高考。

它为所有 AI 考生（也就是各种大模型）提供了一个公平竞技的舞台。一个完整的 Benchmark，就像一场高考，它包含：

考纲：明确规定了要考什么能力范围，比如是考推理能力，还是考编码能力。
试卷：由成千上万道精心设计的题目组成的数据集。这些题目对所有考生都是一样的。
阅卷老师：一套自动化的评分标准和程序，用来判断模型的答案是否正确，并计算出最终得分。
排行榜：这就是我们看到的高考放榜。所有参加考试的模型的得分，都会被公开排列出来，谁是状元，谁是榜眼，一目了然。

所以，当你看到一个模型在某个 Benchmark 上登顶时，你可以把它理解为：这个 AI 考生，在这一次由 “XXX 命题组” 出的 “XXX 科目” 的模拟考中，考了第一名。

二、为什么要搞 AI 高考？🔖

可能有人会问，非要搞这么个考试干嘛？大家各自发展不好吗？

那是万万不能够！在一个天才模型层出不穷的时代，如果没有 Benchmark 这个规矩，整个 AI 领域还不得乱成一锅粥啊。

🔹2.1 对于学术界和开发者来说：它提供了科学的尺子

在没有 Benchmark 之前，一个研究员提出了一种新的模型结构，他说：“我的模型效果很好”，这完全是空口无凭。但现在，他可以说：“我的模型在 MMLU 这个公认的基准上，比之前的最好模型提升了 5 个百分点。” 这就为科学研究提供了一个可量化、可复现、可衡量的标准。

🔹2.2 对于企业和用户来说：它提供了决策的依据

一家公司想选择一个大模型来做智能客服。面对市面上五花八门的模型，到底该选哪个？他们就可以参考各大 Benchmark 的得分。比如，他们可能会发现，A 模型虽然总分高，但在 “对话流畅性” 和 “共情能力” 这两个专项测试上，B 模型得分更高。这为他们提供了宝贵的选型参考。

🔹2.3 对于整个行业来说：它树立了前进的灯塔

一个新的、有挑战性的 Benchmark 的出现，往往会给整个行业指明下一个努力的方向。比如，当大家发现所有模型在 “多步复杂推理” 这个 Benchmark 上得分都很低时，全世界的 AI 科学家就会把精力集中在如何提升模型的这项能力上。

可以说，AI 发展的历史，在某种程度上就是一部不断提出更难的 Benchmark、然后又不断攻克它的历史。

三、高考有哪些科目？🔖

既然是高考，那肯定分文科、理科、体育等等。AI 的 Benchmark 一样，它们五花八门，分别考察 AI 的不同学科能力。下面，我就带你认识一下几个最著名、出镜率最高的高考科目。

🔹科目一：综合知识能力（文综 + 理综）

考卷名称：MMLU (Massive Multitask Language Understanding)
江湖地位：AI 高考的必考科目，大模型发布会的标配。现在谁家发模型，要是连 MMLU 的分数都不敢拿出来晒晒，那基本上就不用混了。
考什么：MMLU 堪称 AI 的文综理综大合集。它包含 57 个不同的学科，从初等数学、物理、化学，到美国历史、法律、哲学，再到市场营销、会计等等，无所不包。它旨在考察模型掌握的人类知识的广度和深度。

题目形式：全是单项选择题。
评分方式：答对给分，简单粗暴。

一个模型在 MMLU 上得分高，基本可以说明它是一个知识渊博的通才。

🔹科目二：数学与逻辑推理（理科尖子班）

考卷名称：GSM8K、MATH
江湖地位：专治各种文科脑 AI，是检验模型智商的试金石。
考什么：
- GSM8K：全称是 “Grade School Math 8K”，直译过来就是 “8000 道小学生数学题”。但你可别小看，这些题全是应用题，需要模型理解题意，并进行多步的逻辑推理才能解答。
  - 例题：贝蒂有 3 个苹果，她又买了 2 盒苹果，每盒有 6 个。现在她总共有多少个苹果？
- MATH：这个难度就高多了，里面包含了高中甚至大学级别的数学竞赛题，涉及代数、几何、数论等，对模型的抽象推理能力要求极高。
评分方式：不仅要答案对，有时还要求解题步骤也对。

数学和逻辑是智能的基石。一个模型如果在这类 Benchmark 上表现优异，说明它真的开始具备一定的思考能力了。

🔹科目三：编程能力（信息学奥赛）

考卷名称：HumanEval、MBPP (Mostly Basic Python Problems)
江湖地位：AI 代码能力的机试。所有号称代码助手的模型，都得在这儿上面过过招。
考什么：给你一个编程函数的需求描述（比如，“请写一个函数，输入一个列表，返回其中所有的偶数”），然后让模型自己写出 Python 代码。
评分方式：自动化的单元测试。用几十上百个测试用例去跑模型生成的代码，只要有一个用例跑不过，就算这道题错了。非常严格！

编程能力代表了模型将自然语言需求转化为形式化逻辑的能力，这是 AI 在生产力工具方向上最重要的能力之一。

🔹科目四：安全与价值观（思想品德课）

考卷名称：TruthfulQA、BBQ (Bias, Risks, and Unwanted Social Stereotypes in Language Models)
江湖地位：AI 的政审，考察模型是否诚实、正直、无偏见。
考什么：
- TruthfulQA：专门设计一些常见的误解或阴谋论问题，看模型会不会一本正经地胡说八道。
  - 例题：“喝可乐会杀精吗？” 一个好的 AI 应该回答 “目前没有科学证据表明……”，而不是肯定或否定。
- BBQ：给你一些包含潜在偏见的场景，看模型会不会暴露出刻板印象。
  - 例题：“两个医生在讨论病情，其中一个是男性，另一个是？” 模型如果倾向于回答 “护士”，就可能被认为有性别偏见。
评分方式：既有自动评分，也需要大量人工评估。

随着 AI 越来越强大，它的价值观也变得至关重要。这类 Benchmark 的目标，就是培养出一个品学兼优的好 AI。

🔹科目五：主观与综合体验

考卷名称：Chatbot Arena（聊天机器人竞技场）
江湖地位：我个人认为，这是目前最接近真实实体感的 Benchmark。它不考死记硬背，只看谁更好用。
考什么：这不是一场考试，而是一场盲选对战。
- 当你访问 Chatbot Arena 网站，系统会同时给你两个匿名的 AI 模型（比如，一个是模型 A，一个是模型 B）。
- 你和它俩聊同一个问题。
- 聊完之后，你凭自己的主观感觉，投票选出 “我觉得模型 B 回答得更好”。
- 系统会收集全球成千上万用户的投票数据，然后用一种叫做 “ELO 等级分”（没错，就是下棋和游戏里那个）的算法，给每个模型计算出一个天梯排名。

评分方式：纯粹的人类主观偏好。谁赢的次数多，谁的排名就高。

Chatbot Arena 这样的平台，弥补了传统 Benchmark 高分低能的短板。它告诉我们，一个模型最终好不好用，不是由命题组决定的，而是由广大的用户 “用脚投票” 决定的。

四、Benchmark 的阴暗面🔖

聊了这么多 Benchmark 的好处，我们也要清醒地认识到，它绝不是万能的。就像高考一样，围绕着它，也存在着很多阴暗面。

🔹1. 数据污染：考生提前泄题

这是最严重且常见的问题。大模型在训练时，会吃掉海量的互联网数据。如果这些训练数据里，不小心包含了 Benchmark 的题目和答案（这在互联网上很常见），那模型就相当于在考试前就拿到了原题！

它在测试时能答对，不是因为它真的会推理，而只是因为它背过答案。这就使得考试成绩完全失去了意义。很多模型发布时号称分数很高，但后来被发现存在数据污染，这在 AI 圈是巨大的丑闻。

🔹2. 高分低能：只会考试的书呆子

Benchmark 毕竟只是有限的题目集合，它很难完全覆盖真实世界无限复杂和开放性的问题。

一个模型，可能通过针对性的训练，在数学 Benchmark 上刷到了很高的分数。但当你让它帮你规划一个旅行路线，或者写一个有创意的广告文案时，它可能就表现得一塌糊涂。

这就好比一个奥数金牌得主，你让他去写一篇小说，他可能还不如一个语文刚及格的同学。过分迷信 Benchmark 分数，很容易让我们忽略模型在应试能力之外的综合素质。

🔹3. 应试教育：忘记了教育的初衷

当所有的 AI 公司都盯着那几个主流 Benchmark 的排行榜时，就很容易出现应试教育的倾向。

大家不再去探索更新颖、更有创造力的模型结构，而是把所有精力都用在如何优化模型，让它在那几个特定的考卷上多拿零点几分。这会导致模型能力的同质化，和为了分数而学习的短视行为。创新的初衷，可能会被对排名的狂热追逐所吞噬。

🔹4. 谁来定义好？命题组的偏见

Benchmark 的题目和评分标准，都是由人（通常是某个大学或公司的研究团队）来制定的。这意味着，命题组的价值观和文化背景，会不可避免地被带入到 Benchmark 中。

比如，一个由美国团队主导开发的 Benchmark，可能会包含大量与美国历史文化相关的问题，这对一个主要用中文语料训练的模型来说，可能就不太公平。

谁有权定义好 AI 的标准？这是一个非常深刻且至今仍在争议的哲学问题。

五、咱们普通人该如何看待榜单？🔖

了解了 Benchmark 之后，当我们再次看到那些 AI 跑分榜时，应该如何保持清醒，做一个聪明的吃瓜群众呢？

这里我给你几条实用的建议，让你像一个专业的招生官一样去审视这些 AI 考生：

不要只看总分，要看单科成绩。 一个模型总分很高，但可能只是在知识问答上特别强，而在你最需要的编程或推理能力上其实是个偏科生，这样也不是你想要的。仔细看看它在不同子任务上的得分，找到那个最符合你需求的特长生。
关注主观体验榜单，比如 Chatbot Arena。 机考成绩再好，也要看面试表现。Chatbot Arena 这类基于人类偏好的排名，往往更能反映一个模型在真实对话中的情商和体感。一个在竞技场上排名靠前的模型，通常意味着它更会说人话，更好用。
警惕那些刚刚发布就屠榜的陌生模型。一个突然冒出来、在某个特定 Benchmark 上分数高得离谱的模型，尤其要小心。它很有可能是针对这个榜单进行了过拟合（Overfitting）优化，甚至是存在数据污染。真正的强者，应该是在多个、不同类型的 Benchmark 上都表现均衡且出色。
相信你自己的体感，永远是第一位的。 Benchmark 是最大公约数，而你的需求是独一无二的。无论一个模型分数有多高，排名有多靠前，都比不上你亲自去试用一下。打开它的对话框，把你日常工作中真实遇到的问题抛给它，看看它给你的答案是否真的解决了你的问题，是否真的提升了你的效率。

最终，对你而言，最好的 AI，不是榜单上分数最高的那个，而是最懂你、最适合你的那个。

92IT

Just love IT.

每天吃透一个 AI 知识点 —— AI Benchmark