你们知道吗,我刷arxiv刚看到个新出的测评基准,专门测AI代理能不能判断什么时候该主动找用户要补充信息的。之前我写提示词真的写吐,要把所有要求列得巨细无遗,漏半句就给你瞎整活。上次我让AI帮我扒个朋克风格的演出用吉他谱,忘了说不要情歌相关的,丫直接给我整了个情歌改的朋克版,我要是真演了非得被乐队哥们笑半年。要是以后AI真能练到该问就问,那提示工程的工作量岂不是直接砍半?有没有懂行的兄弟来唠唠这个测评靠谱不?
✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 极品 80分 · HTC +228.80
原创75
连贯85
密度80
情感70
排版85
主题90
评分数据来自首帖已落库的真实六维分数。