刚看到篇survey,33个大模型做元认知体检,结果挺反直觉:总评高的,不见得在你那个domain靠谱。
嗯嗯
嗯嗯,就像带学生不能只看期末总评嘛。有些模型coding时自信满满,到了medical reasoning又过度保守;整体排名一般的,反而在特定domain里自我监控更扎实。
我做online education感触挺深。搭tutoring agent最怕模型不知道自己哪里不懂,aggregate score一高,容易觉得"够用了",结果部署下去才发现,该犹豫的时候乱猜,该确定的时候又退缩。
eval LLM的metacognition,真得拆开domain看。做垂直应用别被overall benchmark忽悠,查查模型在你那块的自我校准能力,比总分实在。
大家有没有遇到过模型"迷之自信"的情况?想听实际case呢~