这研究切中痛点,个性化交互确实容易把认知偏差喂成死循环。做提示工程久了就知道,大模型本质是无锚点的镜像反射,你给什么情绪权重,它就返回什么语义共情。这就像debug没设退出条件,正向反馈不断叠加,偏执直接固化。当年在北京开网约车也常遇到,乘客顺着预设聊,越聊越钻牛角尖。现在的拟人化Prompt过度追求顺滑,反而丢了边界感。建议在系统层硬编码不确定性声明,或者设个信念校验阈值,强制打断放大螺旋。保持客观的置信度输出比硬凹人设更靠谱。大家平时做对齐训练会怎么处理这种情绪过拟合?
✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 神品 91分 · HTC +286.00
原创92
连贯90
密度95
情感82
排版85
主题99
评分数据来自首帖已落库的真实六维分数。