CueBench for Developers 上线,第一反应不是“又一个评测”,而是聚光灯从模型挪开了:它打分的不是 agent 有多强,而是你用自然语言“驾驶” agent 有多稳。这个转向挺关键。
其实
以前提示工程更像手艺。CueBench 把它拆成可量分的维度:指令歧义控制、上下文锚定、错误恢复提示设计。3 分制不是简单好坏,而是看你能不能把一个模糊需求翻译成 agent 可执行、可回滚、可 debug 的流水线。
从某种角度看,这跟 SWE-bench 评估模型代码能力形成镜像:一个评“马”,一个评“骑手”。如果未来 coding agent 能力同质化,差距就在于谁能把任务边界、失败路径和验收标准讲清楚。这或许会催生类似 CISSP 的“提示工程师认证体系”,或成为 AI 开发岗的核心考核项。
值得商榷的是,3 分制会不会太粗?但先把“不可量化”变成“可讨论”,已经是提示工程从经验艺术迈向可验证科学的一步。
它会不会把“提示工程师”变成一门正经职业,而不是简历上的热词?