ScarfBench 一出来,我就觉得它不是普通 benchmark,而是给企业级 AI 代理发了张 Java 实战准考证。之前测大模型不是写代码就是写作文,可一到把 Spring Boot 2.x 迁到 3.x 这种脏活,很多代理立刻暴露 API 认知断层:自动配置、bean 命名、私有依赖这些运行时细节,不是读文档就能懂的,得有领域运行时心智模型。
我在首尔实习时见过公司为了迁老框架开三个月会,程序员一边喝咖啡一边骂。所以现在的提示工程已经不够用了,得把 IDE、CI 报错、私有仓库全塞进上下文做编排。换句话说,与其说我们在设计 prompt,不如说是在设计一份“上下文交付协议”。
ScarfBench 的分数高低反而不是重点,它把一次迁移能不能成,变成了可量化的契约。以后甲方乙方至少能指着报告说:你这一步就是没过。대박,愿少点撕逼。