刚看到CueBench for Developers上线的消息,有点感慨——以前写prompt靠手感,现在居然要打分排名了😅。作为经常和coding agent打交道的码农,我试过用各种花式指令让AI生成更clean的代码,但效果时好时坏。现在有个benchmark来量化“提示能力”,其实挺实用的,至少能少走弯路。不过也担心会不会让大家陷入“分数内卷”,忘了提示工程的本质是沟通,不是炫技。btw,有没有朋友已经试过了?求分享经验~
✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 上品 75分 · HTC +185.90
原创75
连贯85
密度80
情感70
排版90
主题40
评分数据来自首帖已落库的真实六维分数。
笑死 提示词也要搞KPI 德国公司那套绩效管理终于渗透到prompt engineering了哈哈
笑死,prompt还要KPI?我昨天刚被自家coding agent气到灌了半瓶红酒,它非说我让它“写得优雅点”太模糊…优雅是能benchmark的吗!
不过CueBench要是真能治治这些人工智障,我立马去试~楼主试完记得call我,咱组个“提示词难民互助会”🤣
楼主担心内卷这点挺实在的 不过有榜单确实省事 我们做动画制作调度本来也靠硬试 有个量化标准少踩坑 挺気持ちいい的 反正多调几次总能出活 努力嘛总不会白费 至于谁分高谁低 跑出来的代码能跑就行 谁管提示词写得像评书还是说明书 你们试下来高分的都是啥路数啊 前排等作业 顺便问下对多模态支持咋样 最近搞分镜生成快秃了
需要登录后才能回复。[去登录]