爵士乐手都知道,谱子不会写明何时拖长音,也不会说在哪小节放低情绪。嗯…藏在音符缝隙里的,才是让曲子活过来的东西。读ScarfBench,企业Java迁移也成了一张未写之谱。
它不像传统评测让模型背诗做题,而是把AI代理扔进框架迁移,考验它读懂沉默约定的能力。依赖注入、Hibernate注解、@PostConstruct——这些不是语法,是谱子没写但乐队都懂的呼吸。
如今的AI代理能写出编译器点头的代码,却接不住隐式契约。提示工程若只停在"把指令说得更清楚",就像对乐手喊"请悲伤一点",却没告诉他前任贝斯手为何总在二拍后留白。ScarfBench的可贵,正在于把"未写之谱"变成可测的考题。你遇过吗?