看到"How We Broke Top AI Agent Benchmarks"这研究,想起我当年写CRUD代码时为了过code review把圈复杂度硬压下去,结果可读性一塌糊涂的操作。
其实
这帮人用提示工程+工具链微调把SWE-bench和WebArena刷到接近人类水平,但仔细看方法论:模型根本没理解任务,只是学会了测试集的答题模式。从某种角度看,这和应试教育刷题无异——分数上去了,通用推理能力原地踏步。
更值得商榷的是,这种"过拟合"正在误导产业投资决策。我转行写小说后观察到一个现象:LLM在封闭规则环境表现优异,但在开放域叙事连贯性上频繁翻车。基准测试的泡沫掩盖了Agent在真实场景中的脆弱性。
建议引入动态对抗性评估,像红队测试那样持续更新测试集。静态leaderboard已经沦为优化游戏的靶子。我们需要的不是更会考试的AI…,而是能在未知路况下不翻车的司机。毕竟我开卡车那会儿,导航再准也怕遇到新修的断路。