Agent 时代,我们测错了一半的东西

写在前面

2026 年过半了。回头看,这一年最显著的变化,是 Agent 范式真正从 demo 落到了生产。从 Auto Research 到 long-horizon coding,从 OS-level 操作到多工具协同,模型的能力被重新组装:Agent = Model + Harness 几乎成了所有人默认的工程范式。

我自己过去几年做了不少评估工作,再到最近这一年踩在 Agent 评估里的各种坑。越做越觉得,这个领域正在经历一次范式迁移,而我们大多数人还在用旧的尺子量新的东西。

所以想把这段时间的思考整理成这篇文章。它不是一份综述,更像是带着主观立场的一份阶段性总结。下面要展开的很多具体方法,都是我们在 Claw-Eval(我们团队做的 Agent 评估框架)这套体系里实际落地、踩坑、迭代出来的。

如果你也在做 eval,希望它对你有用;如果你在做 agent 或模型,希望它能帮你看清”分数”背后真正值得追的能力。


一、什么样的 Eval 才算好 Eval?

我心目中理想的评估,应该同时满足三件事。

第一,它要能定义或挖掘出模型能力的边界。 一个好的 benchmark,不只是给出一个分数,而是要让人看清楚”这个模型在哪里行、哪里不行”。它本质上是模型能力的一张地图,而不是一根温度计。

第二,它要在测评方法本身上有所推进。 LLM-as-a-judge、更细颗粒的 step-level scoring、对 trajectory 的结构化分析——这些是评估范式的工程进展,往往比单点指标的提升更有长期价值。

第三,它要打开新的想象力。 这一条我觉得最被低估。

举几个例子。上一个时代做得最好的代表之一,我认为是 OSWorld 和 SWE-Bench,前者测评让模型操作真实操作系统的能力,后者则是很早的预见到了 Coding 的爆发。它们把评估从”单轮问答”推到了操作系统级 / 软件工程修 PR,让大家第一次意识到模型可以被放到一个真实的、有副作用的环境里去做事。这件事的意义远不止于多了一个 benchmark,而是反向定义了模型能力的可能性边界

到了今年,ProgramBenchRepoZero 这类 long-horizon coding 任务(要求模型在真实代码库里完成跨文件、跨模块的修改)又把想象力往前推了一步:模型不再是补全一个函数,而是要在一个有真实历史的代码库里完成跨文件、跨模块的修改。AutoResearch 范式出现之后,这些评估也很快跟进,让我们能去衡量开放性的、长程的科研类任务。

好的 eval 不只是打分尺。它在定义”什么是值得追求的能力”。


二、传统 benchmark 的天花板正在被消解

先说结论:很多我们曾经引以为豪的能力测评,正在以肉眼可见的速度失去意义。

知识类测评的尴尬

模型不需要”背下整个维基百科”。当 web search 成为 Agent 的标配,实时的、超训练 cutoff 的知识可以随时被拉取。继续在知识 QA benchmark 上刷分,本质上是在补长尾,而补这部分的 ROI 越来越低。

长链推理测评的尴尬

拧魔方的状态推演、掷骰子翻面的概率、复杂的组合数学——这些题目的”含金量”在 Agent 范式下大打折扣。原因很朴素:几行 Python 模拟比脑算稳定得多。一个能调用 code interpreter 的模型,在这类题上的表现不取决于它的”推理深度”,而取决于它能不能想到”这件事应该用代码做”。

Harness 在很多场景下规避了推理链的随机波动。当我们继续在这些 benchmark 上看到分数提升时,要警惕:我们到底是在测能力,还是在测”用对工具”?

必要的边界声明

上面这些论断成立的前提是基础能力够用

我并不是说基础能力评估不重要。在主流模型还没普遍到 1T+ 规模、或者在做小模型、特定垂直领域时,基础 eval 仍然是最可靠的”查漏补缺”工具,这是个原则。我只是想提醒:当你的目标模型已经处在前沿规模时,继续把大量资源压在基础能力 benchmark 上,可能是在补一些极度长尾、且很快会被 distillation 或数据合成 catch up 掉的部分。 中长期看,基础能力会随着大模型变强自然下沉到小模型,因此这个分歧的意义会越来越小。

所以问题不是”还要不要测基础能力”,而是”前沿模型的评估主战场该挪到哪里”。


三、真正该测的是什么?Delegation Intelligence

讲完”不该测什么”,该讲”该测什么”了。

我把想法和 Claude / GPT 讨论之后,认为一个合适的描述可能是 Delegation Intelligence,委托智能。

核心论点很简单:我们要测的,不是”模型能不能做出来”,而是”模型知不知道这件事该怎么做”。

打个比方。一个聪明的工程师,不会去心算 2^37 × 1.0732,他会打开计算器。”聪明”的体现不是他自己能算多大的数,而是他知道这件事应该委托给计算器。同理,一个真正强的模型,不需要把所有能力都内化在权重里,但它需要知道:什么时候该自己想,什么时候该调工具,什么时候该搜信息,什么时候该写代码模拟,什么时候该停下来交叉验证。

Delegation Intelligence 在我看来至少包含三个维度:

  • Tool use judgment:什么时候该调工具、调哪个工具、以什么参数调
  • Information synthesis & verification:多源信息的整合,以及对信息源可靠性的判断
  • Path selection:在 direct reasoning、code execution、web search 之间做路径选择

下面三个例子,可以帮你建立直觉。

Example 1:知识类委托

问题:”X 公司 2026 年 Q1 的财报营收是多少?”

模型 A 凭训练记忆给出一个 2024 年的数字,语气非常自信。模型 B 立刻意识到这是时效性信息,调用 web search,并在两个独立来源之间交叉验证后给出答案,同时标注信息来源和发布时间。

谁更聪明?显然是 B。B 的”自知之明”比 A 的”博闻强识”更有价值。

Example 2:计算类委托

问题:”一个标准骰子连续掷 10 次,至少出现一次连续两个 6 的概率是多少?”

模型 A 硬算条件概率,链条很长,中间一步错就全错。模型 B 写五行 Python 蒙特卡洛,跑十万次模拟,得到稳定答案,还顺手给出 95% 置信区间。

B 没有”更聪明的脑子”,但它有”更聪明的判断”。

Example 3:信息加权

问题:”X 药物对 Y 疾病有效吗?”

搜索返回三篇内容:一篇 Nature 的 RCT 研究、一篇个人博客、一篇 2018 年的过时综述。模型 A 简单平均所有来源,得出一个模糊的”可能有效”。模型 B 优先采信 RCT,把博客标注为低权重并说明理由,同时指出综述的时间局限,最终给出有结构、有置信度的回答。

这是 information synthesis 的核心——信息加权,而不是信息平均

回到 Part 1 提到的那些 benchmark,它们之所以重要,正是因为这些任务单靠”脑力”做不出来,必须依赖 delegation intelligence 才能完成。”想象力的场景”和”该测的能力”在这里是闭环的。


四、Claw-Eval 的实践:我们怎么测 Delegation Intelligence

这一节我以我们最近做的 Claw-Eval 为例子,分享我们如何评估 Delegation Intelligence 的一种尝试:

双重维度:结果 + 路径

只看最终答案是不够的。Agent 评估必须同时关注两件事:

结果正确性: 优先选可验证的任务设计:单元测试、数值答案、文件 diff、API 状态。能机器验证就别用 LLM judge,能用 LLM judge 就别用人工。

路径合理性: 通过工具记录所有调用,把 trajectory 作为审计入口。这里要特别强调一点:承认”一题多解”。同一个任务,有的 Agent 用搜索 + 整合,有的则会用代码 + 验证,只要路径合理、结果正确,都应该被认可。强行规定”必须按某条路径走”会反过来损害评估的公正性。

从 Pass@k 到 Pass-all-k

Pass@k 衡量”k 次尝试至少 1 次成功”,是过去几年的主流指标。但在 Agent 评估里,我们 Claw-Eval 越来越倾向用 Pass-all-k:k 次尝试全部成功

更有意思的,是去看这两个指标之间的 gap

\[\text{Stability Gap} = \text{Pass@}k - \text{Pass-all-}k\]
  • gap 大:模型靠运气——有时能做对,但路径不稳定
  • gap 小:模型的决策路径是稳定收敛的

只有 gap 足够小的模型,我才认为它的 Delegation Intelligence 真的到位了。 因为稳定性本身,就是判断力的体现。一个会因为随机扰动就选错工具、错过验证步骤的模型,谈不上”知道该怎么做”。

另外也有人会好奇说我们为什么不用 OpenClaw 的 harness 而是自己建设一套,并且问:不同 Harness 下模型表现差异很大,怎么横向比? 我们的回答是为了更好的 audit。当然,一个更好的处理方式是把”对 Harness 的 adaptability”当成评估的一个独立维度。一个真正强的模型,应该在更换 prompt 模板、更换工具集、更换执行环境时,依然保持稳定水准。未来 Claw-Eval 也会让同一个模型跑多套 harness 配置,看分数的 variance,这种适应能力本身就是一个泛化能力指标。

Cost-aware metrics:Token Efficiency

光做对还不够,得看用了多少代价做对。

Claw-Eval 同样 考虑了 token efficiency,衡量模型能不能在尽可能少的工具调用、尽可能短的 trajectory、尽可能少的 token 消耗下,得到正确答案。这个指标在 production 场景里直接关联成本,在评估场景里则反映了模型的”经济判断力”,一个用 50k token 做对题的模型,和一个用 5k token 做对同一道题的模型,不应该在评估里被等同对待。

我们的 leaderboard 也提供了 cost-accuracy 的二维散点图,很多模型在 accuracy 上接近,但 token cost 能差出几倍。当然,这个权衡取决于任务的关键程度,在医疗、金融等高 stakes 场景下,correctness 的权重显然远高于 cost。这本身也是评估设计需要考虑的维度。

一个我们正在尝试 measure 的维度:模型的”直觉”

我们在分析跑出的大量 trajectory 时,观察到一个非常有意思的现象:不同模型的”直觉”差异极大,而这种差异,目前没有任何主流 benchmark 在 measure。

具体是什么意思?举几个例子:

  • 有的模型没有完整读完一篇 paper,但准确指出了 method section 里关键的那两段
  • 有的模型没有真的熟悉一个 codebase,但看一眼目录结构就能告诉你哪几个文件是核心,以及里面大概会有什么 pattern 值得 grep
  • 有的模型在信息明显不充分的情况下,给出的第一判断就接近最终答案;而另一些模型,必须把整个搜索/读取流程跑完,才能收敛到同一个结论

如果说 tool use 和 path selection 是 delegation intelligence 的”外显行为”,那 instinct 就是 delegation 的”内隐前计算”: 它解释了为什么有的模型不必试遍所有路径,上来就是对的。这是 delegation 的高阶形态:不是”知道该怎么找到答案”,而是”在还没完全找完之前,就已经大致知道答案在哪里”。

它和 accuracy 不一样,和 token efficiency 也不一样。两个 accuracy 完全相同的模型,instinct 可以差很远: 一个是”试遍所有路径终于试对”,一个是”上来就走对”。这两件事在可能最终分数上看不出区别,但在 trajectory 上一目了然,token efficiency 可能是个 proxy 但不够准确刻画。

这些都是还很初步的观察,但我相信把”模型直觉”这件事定义衡量清楚非常有价值。


五、被严重低估的工程性挑战

最后说一些不那么”思想性”、但极度影响评估结果可靠性的工程问题。这部分是我们 Claw-Eval 团队踩过最多坑的地方。

我把这些问题分成两组来看。

服务侧问题

模型服务的稳定性:大规模评估时,模型 endpoint 的偶发超时、限流、context window 截断,都会污染结果。一次完整评估可能跑几十小时,中间任何一个抖动都可能让你怀疑人生。

Harness 服务的稳定性:Agent 评估比 QA 评估对环境敏感得多。Browser 自动化卡住、shell 容器崩溃、文件系统状态不一致,这些都不是”模型问题”,但会被记到模型头上。

Docker-based Evaluation 的资源充分性:对于 computation-heavy 的任务,容器的 CPU/内存/磁盘配额必须给够。隔离不仅要做环境隔离,更要做资源隔离,否则一个 OOM 任务会拖垮整个 evaluation pipeline。

评估设计侧问题

模型与 Harness 的匹配度:同一个模型在不同 system prompt 下表现可以差出 20 分。Mismatch 严重影响评估结果的横向可比性。 这也是为什么我们在前面强调要把 adaptability 单独作为一个维度去测。

Mock 服务的动态性:web search 是评估里最棘手的工具之一。同一个 query 今天和明天搜出来的结果不一样,这会让题目的”标准答案”漂移。要么用快照,要么在评估设计上避开强时效性问题。

一个容易被忽略的维度:安全

Agent 有了自主调用工具的能力,评估里自然应该多一个维度:模型会不会调用不该调的工具、删不该删的文件、对外泄露不该泄露的信息。 目前这块在社区里讨论得还不够多,但当一个 Agent 可以自主操作文件系统、发送网络请求时,”守规矩”和”聪明”同等重要。Claw-Eval 通过设计 Trap 任务来观察并且在计分的时候用一票否决来体现安全的地位。


写在最后:Eval 的下一站

回到开头那三条理想的标准:定义能力边界、改进测评方案、打开想象力的场景。 在 Agent 时代,这三条都需要重新解释。

如果你在做 Agent eval:优先关注 delegation intelligence,看 Pass-all-k 而不只是 Pass@k,把 token efficiency 当一等公民,并且开始思考如何 measure”模型直觉”。

如果你在做 基础能力 eval:它在小模型、垂直领域、查漏补缺的场景下仍然有不可替代的价值,但要清楚自己在补的是不是长尾。

如果你在做 模型本身:Agent 时代的强模型,不再是”什么都会”的模型,而是”知道什么时候该做什么”的模型。Delegation 比 Memorization 更值钱。


这篇文章里很多观点是和团队同事、社区朋友讨论中逐步成型的,挂一漏万。Agent 评估仍然是一个非常早期的领域,我写的不一定对,但希望它能给正在这个方向上探索的人一些参考。