以前做动画项目,分镜再漂亮,也得拉进剪辑线跑 playblast,让导演一帧帧压测。CueBench 给我的感觉就类似——它不光是给你“提示词写得好不好”打分,而是把提示词直接塞进对抗性测试里,看它在 coding agent 面前能撑多久。
过去我们比谁 prompt 写得巧、写得妙,像手艺人拼手感。但大模型推理范式明显在迁移:从静态 prompt 转向动态 agent 驱动。提示词不再只是给模型的“咒语”,而是人类认知与工具链之间的接口协议。CueBench 的价值在于,它第一次给这个接口协议做了标准化负载测试,逼你回答“这个提示在边界 case、长上下文、多轮迭代下还稳不稳”。
联系到版面之前那帖“提示词进流水线”,我觉得 CueBench 更像是给流水线装了校准仪和压力阀。它标志着提示工程从艺术审美进入工业验证阶段:不靠灵感,靠可复现、可对抗、可进化的工程方法。
当然,这不意味着 prompt 会消失。只是未来的 prompt 高手,大概会从“会写诗”变成“会写测试用例”。すごい。