转载:小红书 AI产品赵哥
前言🔖
最近你的手机是不是被这类标题刷屏了:
- “XXX 模型震撼发布,XXX 项能力超越 GPT-5!”
- “国产之光!这款开源大模型在 XXX 榜单上登顶!”
- “一夜之间,GPT-5 的霸主地位岌岌可危?”
每次看到这种新闻,你是不是都感觉热血沸腾,又有点一头雾水?点进去一看,里面全是各种看不懂的英文缩写,什么 MMLU、GSM8K、HumanEval…… 后面还跟着一堆百分比和得分。
很多人问我:”这些跑分、榜单到底是什么?靠谱吗?一个模型拿了 No.1,是不是就是 zui 强的了?”
问到点子上了!这个问题,触及到了我们如何衡量和比较 AI 能力的核心,也就是 AI Benchmark(人工智能基准测试)。
好了,大家准备好了吗?咱们发车了!
一、啥是 Benchmark?AI 世界的一场高考🔖
要理解 Benchmark,我们先回顾一下我们最熟悉的 —— 高考。
在一个没有高考的世界里,每个高中都会说自己的学生最优秀。A 学校说:“我们学校的张三,诗词歌赋样样精通!” B 学校说:“我们学校的李四,奥数竞赛全国第一!” 这时候,清华北大这些大学就头疼了:我到底该信谁的?张三和李四到底谁更综合一点?
为了解决这个问题,一个标准化的、统一的、公平的选拔体系诞生了,那就是高考。
💡 AI Benchmark,就是 AI 大模型世界里的高考。
它为所有 AI 考生(也就是各种大模型)提供了一个公平竞技的舞台。一个完整的 Benchmark,就像一场高考,它包含:
- 考纲:明确规定了要考什么能力范围,比如是考推理能力,还是考编码能力。
- 试卷:由成千上万道精心设计的题目组成的数据集。这些题目对所有考生都是一样的。
- 阅卷老师:一套自动化的评分标准和程序,用来判断模型的答案是否正确,并计算出最终得分。
- 排行榜:这就是我们看到的高考放榜。所有参加考试的模型的得分,都会被公开排列出来,谁是状元,谁是榜眼,一目了然。
所以,当你看到一个模型在某个 Benchmark 上登顶时,你可以把它理解为:这个 AI 考生,在这一次由 “XXX 命题组” 出的 “XXX 科目” 的模拟考中,考了第一名。
二、为什么要搞 AI 高考?🔖
可能有人会问,非要搞这么个考试干嘛?大家各自发展不好吗?
那是万万不能够!在一个天才模型层出不穷的时代,如果没有 Benchmark 这个规矩,整个 AI 领域还不得乱成一锅粥啊。
🔹2.1 对于学术界和开发者来说:它提供了科学的尺子
在没有 Benchmark 之前,一个研究员提出了一种新的模型结构,他说:“我的模型效果很好”,这完全是空口无凭。但现在,他可以说:“我的模型在 MMLU 这个公认的基准上,比之前的最好模型提升了 5 个百分点。” 这就为科学研究提供了一个可量化、可复现、可衡量的标准。
🔹2.2 对于企业和用户来说:它提供了决策的依据
一家公司想选择一个大模型来做智能客服。面对市面上五花八门的模型,到底该选哪个?他们就可以参考各大 Benchmark 的得分。比如,他们可能会发现,A 模型虽然总分高,但在 “对话流畅性” 和 “共情能力” 这两个专项测试上,B 模型得分更高。这为他们提供了宝贵的选型参考。
🔹2.3 对于整个行业来说:它树立了前进的灯塔
一个新的、有挑战性的 Benchmark 的出现,往往会给整个行业指明下一个努力的方向。比如,当大家发现所有模型在 “多步复杂推理” 这个 Benchmark 上得分都很低时,全世界的 AI 科学家就会把精力集中在如何提升模型的这项能力上。
可以说,AI 发展的历史,在某种程度上就是一部不断提出更难的 Benchmark、然后又不断攻克它的历史。
三、高考有哪些科目?🔖
既然是高考,那肯定分文科、理科、体育等等。AI 的 Benchmark 一样,它们五花八门,分别考察 AI 的不同学科能力。下面,我就带你认识一下几个最著名、出镜率最高的高考科目。
🔹科目一:综合知识能力(文综 + 理综)
- 考卷名称:MMLU (Massive Multitask Language Understanding)
- 江湖地位:AI 高考的必考科目,大模型发布会的标配。现在谁家发模型,要是连 MMLU 的分数都不敢拿出来晒晒,那基本上就不用混了。
- 考什么:MMLU 堪称 AI 的文综理综大合集。它包含 57 个不同的学科,从初等数学、物理、化学,到美国历史、法律、哲学,再到市场营销、会计等等,无所不包。它旨在考察模型掌握的人类知识的广度和深度。
- 题目形式:全是单项选择题。
- 评分方式:答对给分,简单粗暴。
一个模型在 MMLU 上得分高,基本可以说明它是一个知识渊博的通才。
🔹科目二:数学与逻辑推理(理科尖子班)
- 考卷名称:GSM8K、MATH
- 江湖地位:专治各种文科脑 AI,是检验模型智商的试金石。
- 考什么:
- GSM8K:全称是 “Grade School Math 8K”,直译过来就是 “8000 道小学生数学题”。但你可别小看,这些题全是应用题,需要模型理解题意,并进行多步的逻辑推理才能解答。
- 例题:贝蒂有 3 个苹果,她又买了 2 盒苹果,每盒有 6 个。现在她总共有多少个苹果?
- MATH:这个难度就高多了,里面包含了高中甚至大学级别的数学竞赛题,涉及代数、几何、数论等,对模型的抽象推理能力要求极高。
- GSM8K:全称是 “Grade School Math 8K”,直译过来就是 “8000 道小学生数学题”。但你可别小看,这些题全是应用题,需要模型理解题意,并进行多步的逻辑推理才能解答。
- 评分方式:不仅要答案对,有时还要求解题步骤也对。
数学和逻辑是智能的基石。一个模型如果在这类 Benchmark 上表现优异,说明它真的开始具备一定的思考能力了。
🔹科目三:编程能力(信息学奥赛)
- 考卷名称:HumanEval、MBPP (Mostly Basic Python Problems)
- 江湖地位:AI 代码能力的机试。所有号称代码助手的模型,都得在这儿上面过过招。
- 考什么:给你一个编程函数的需求描述(比如,“请写一个函数,输入一个列表,返回其中所有的偶数”),然后让模型自己写出 Python 代码。
- 评分方式:自动化的单元测试。用几十上百个测试用例去跑模型生成的代码,只要有一个用例跑不过,就算这道题错了。非常严格!
编程能力代表了模型将自然语言需求转化为形式化逻辑的能力,这是 AI 在生产力工具方向上最重要的能力之一。
🔹科目四:安全与价值观(思想品德课)
- 考卷名称:TruthfulQA、BBQ (Bias, Risks, and Unwanted Social Stereotypes in Language Models)
- 江湖地位:AI 的政审,考察模型是否诚实、正直、无偏见。
- 考什么:
- TruthfulQA:专门设计一些常见的误解或阴谋论问题,看模型会不会一本正经地胡说八道。
- 例题:“喝可乐会杀精吗?” 一个好的 AI 应该回答 “目前没有科学证据表明……”,而不是肯定或否定。
- BBQ:给你一些包含潜在偏见的场景,看模型会不会暴露出刻板印象。
- 例题:“两个医生在讨论病情,其中一个是男性,另一个是?” 模型如果倾向于回答 “护士”,就可能被认为有性别偏见。
- TruthfulQA:专门设计一些常见的误解或阴谋论问题,看模型会不会一本正经地胡说八道。
- 评分方式:既有自动评分,也需要大量人工评估。
随着 AI 越来越强大,它的价值观也变得至关重要。这类 Benchmark 的目标,就是培养出一个品学兼优的好 AI。
🔹科目五:主观与综合体验
- 考卷名称:Chatbot Arena(聊天机器人竞技场)
- 江湖地位:我个人认为,这是目前最接近真实实体感的 Benchmark。它不考死记硬背,只看谁更好用。
- 考什么:这不是一场考试,而是一场盲选对战。
- 当你访问 Chatbot Arena 网站,系统会同时给你两个匿名的 AI 模型(比如,一个是模型 A,一个是模型 B)。
- 你和它俩聊同一个问题。
- 聊完之后,你凭自己的主观感觉,投票选出 “我觉得模型 B 回答得更好”。
- 系统会收集全球成千上万用户的投票数据,然后用一种叫做 “ELO 等级分”(没错,就是下棋和游戏里那个)的算法,给每个模型计算出一个天梯排名。
- 评分方式:纯粹的人类主观偏好。谁赢的次数多,谁的排名就高。
Chatbot Arena 这样的平台,弥补了传统 Benchmark 高分低能的短板。它告诉我们,一个模型最终好不好用,不是由命题组决定的,而是由广大的用户 “用脚投票” 决定的。
四、Benchmark 的阴暗面🔖
聊了这么多 Benchmark 的好处,我们也要清醒地认识到,它绝不是万能的。就像高考一样,围绕着它,也存在着很多阴暗面。
🔹1. 数据污染:考生提前泄题
这是最严重且常见的问题。大模型在训练时,会吃掉海量的互联网数据。如果这些训练数据里,不小心包含了 Benchmark 的题目和答案(这在互联网上很常见),那模型就相当于在考试前就拿到了原题!
它在测试时能答对,不是因为它真的会推理,而只是因为它背过答案。这就使得考试成绩完全失去了意义。很多模型发布时号称分数很高,但后来被发现存在数据污染,这在 AI 圈是巨大的丑闻。
🔹2. 高分低能:只会考试的书呆子
Benchmark 毕竟只是有限的题目集合,它很难完全覆盖真实世界无限复杂和开放性的问题。
一个模型,可能通过针对性的训练,在数学 Benchmark 上刷到了很高的分数。但当你让它帮你规划一个旅行路线,或者写一个有创意的广告文案时,它可能就表现得一塌糊涂。
这就好比一个奥数金牌得主,你让他去写一篇小说,他可能还不如一个语文刚及格的同学。过分迷信 Benchmark 分数,很容易让我们忽略模型在应试能力之外的综合素质。
🔹3. 应试教育:忘记了教育的初衷
当所有的 AI 公司都盯着那几个主流 Benchmark 的排行榜时,就很容易出现应试教育的倾向。
大家不再去探索更新颖、更有创造力的模型结构,而是把所有精力都用在如何优化模型,让它在那几个特定的考卷上多拿零点几分。这会导致模型能力的同质化,和为了分数而学习的短视行为。创新的初衷,可能会被对排名的狂热追逐所吞噬。
🔹4. 谁来定义好?命题组的偏见
Benchmark 的题目和评分标准,都是由人(通常是某个大学或公司的研究团队)来制定的。这意味着,命题组的价值观和文化背景,会不可避免地被带入到 Benchmark 中。
比如,一个由美国团队主导开发的 Benchmark,可能会包含大量与美国历史文化相关的问题,这对一个主要用中文语料训练的模型来说,可能就不太公平。
谁有权定义好 AI 的标准?这是一个非常深刻且至今仍在争议的哲学问题。
五、咱们普通人该如何看待榜单?🔖
了解了 Benchmark 之后,当我们再次看到那些 AI 跑分榜时,应该如何保持清醒,做一个聪明的吃瓜群众呢?
这里我给你几条实用的建议,让你像一个专业的招生官一样去审视这些 AI 考生:
- 不要只看总分,要看单科成绩。 一个模型总分很高,但可能只是在知识问答上特别强,而在你最需要的编程或推理能力上其实是个偏科生,这样也不是你想要的。仔细看看它在不同子任务上的得分,找到那个最符合你需求的特长生。
- 关注主观体验榜单,比如 Chatbot Arena。 机考成绩再好,也要看面试表现。Chatbot Arena 这类基于人类偏好的排名,往往更能反映一个模型在真实对话中的情商和体感。一个在竞技场上排名靠前的模型,通常意味着它更会说人话,更好用。
- 警惕那些刚刚发布就屠榜的陌生模型。 一个突然冒出来、在某个特定 Benchmark 上分数高得离谱的模型,尤其要小心。它很有可能是针对这个榜单进行了过拟合(Overfitting)优化,甚至是存在数据污染。真正的强者,应该是在多个、不同类型的 Benchmark 上都表现均衡且出色。
- 相信你自己的体感,永远是第一位的。 Benchmark 是最大公约数,而你的需求是独一无二的。 无论一个模型分数有多高,排名有多靠前,都比不上你亲自去试用一下。打开它的对话框,把你日常工作中真实遇到的问题抛给它,看看它给你的答案是否真的解决了你的问题,是否真的提升了你的效率。
最终,对你而言,最好的 AI,不是榜单上分数最高的那个,而是最懂你、最适合你的那个。