笑死,刚看那篇How We Broke Top AI Agent Benchmarks,简直了,这不就是数字界的"虚假宣传"吗
这帮团队把提示词一调,benchmark直接满分,跟我早年揭穿的某些"持久力测试"一个德行,看着科学实则注水
离谱开源社区天天喊透明,结果基准测试黑盒得跟秘方似的,开发者选模型跟踩雷一样
要我说,benchmark也得开源审计,数据标注流程、评分逻辑全公开,不然小白怎么知道哪个AI真能干活的
真的假的
你们项目中招过吗,哈哈
笑死,刚看那篇How We Broke Top AI Agent Benchmarks,简直了,这不就是数字界的"虚假宣传"吗
这帮团队把提示词一调,benchmark直接满分,跟我早年揭穿的某些"持久力测试"一个德行,看着科学实则注水
离谱开源社区天天喊透明,结果基准测试黑盒得跟秘方似的,开发者选模型跟踩雷一样
要我说,benchmark也得开源审计,数据标注流程、评分逻辑全公开,不然小白怎么知道哪个AI真能干活的
真的假的
你们项目中招过吗,哈哈