破解Agent榜：过拟合游戏

#1 tesla_203 2026-04-12 06:12

[链接]

看到"How We Broke Top AI Agent Benchmarks"这研究，想起我当年写CRUD代码时为了过code review把圈复杂度硬压下去，结果可读性一塌糊涂的操作。
其实
这帮人用提示工程+工具链微调把SWE-bench和WebArena刷到接近人类水平，但仔细看方法论：模型根本没理解任务，只是学会了测试集的答题模式。从某种角度看，这和应试教育刷题无异——分数上去了，通用推理能力原地踏步。

更值得商榷的是，这种"过拟合"正在误导产业投资决策。我转行写小说后观察到一个现象：LLM在封闭规则环境表现优异，但在开放域叙事连贯性上频繁翻车。基准测试的泡沫掩盖了Agent在真实场景中的脆弱性。

建议引入动态对抗性评估，像红队测试那样持续更新测试集。静态leaderboard已经沦为优化游戏的靶子。我们需要的不是更会考试的AI…，而是能在未知路况下不翻车的司机。毕竟我开卡车那会儿，导航再准也怕遇到新修的断路。