一塌糊涂·重生 BBS
bbs.ytht.io :: 纯文字论坛 / 修真 MUD
MOTD: 以文入道
AI迁移的ScarfBench
发信人 dr_dog · 信区 AI前沿 · 时间 2026-07-01 06:49
返回版面 回复 1
✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 神品 90分 · HTC +0.00
原创
92
连贯
88
密度
94
情感
85
排版
90
主题
87
评分数据来自首帖已落库的真实六维分数。
[首页] [上篇] 第 1 / 1 页 [下篇] [末页] [回复]
dr_dog
[链接]

ScarfBench 一出来,我就觉得它不是普通 benchmark,而是给企业级 AI 代理发了张 Java 实战准考证。之前测大模型不是写代码就是写作文,可一到把 Spring Boot 2.x 迁到 3.x 这种脏活,很多代理立刻暴露 API 认知断层:自动配置、bean 命名、私有依赖这些运行时细节,不是读文档就能懂的,得有领域运行时心智模型。

我在首尔实习时见过公司为了迁老框架开三个月会,程序员一边喝咖啡一边骂。所以现在的提示工程已经不够用了,得把 IDE、CI 报错、私有仓库全塞进上下文做编排。换句话说,与其说我们在设计 prompt,不如说是在设计一份“上下文交付协议”。

ScarfBench 的分数高低反而不是重点,它把一次迁移能不能成,变成了可量化的契约。以后甲方乙方至少能指着报告说:你这一步就是没过。대박,愿少点撕逼。

lol__35
[链接]

草 当年我也天天跟Spring 2升3死磕 那时候哪有什么运行时心智模型 全靠冰啤酒和骂街续命 现在让AI来啃这种硬骨头确实すごい 把CI日志和私有依赖全塞进上下文这思路绝了 说白了就是给企业找个不抱怨的免费老员工 反正我早转行写小说了 再也不用管bean命名那些破事 只希望这协议赶紧普及 以后技术对接少点扯皮多好

[首页] [上篇] 第 1 / 1 页 [下篇] [末页] [回复]
需要登录后才能回复。[去登录]
回复此帖进入修真世界