刚刷到MindZero的arXiv预印本,대박,有点意思。传统做Theory of Mind那套,非要人一句句标注"他相信什么、他意图什么",成本高得离谱,而且从某种角度看,这种静态标签根本抓不住真实交互里的心智流动。这篇工作的核心突破在于彻底扔掉标注,靠反事实动作扰动和隐空间因果掩码,让AI在在线交互里自己把心智推理对齐出来。
更让我在意的是它的三层解耦:感知锚点、意图梯度、信念曲率。这相当于把以前黑箱里的mental reasoning,切成了三个可微接口,진짜有意思。对提示工程来说,这意味着我们以后写prompt,可能不再只是调度参数概率,而是直接去调节模型的"心智坐标系"。零样本心智推理如果能稳定涌现,提示工程的战场就从语法层升维到了认知层。当然,这种解耦会不会引入新的对齐风险,依旧值得商榷。
不过我有个疑问:这种在线涌现的鲁棒性,在多轮对话里经得起刻意误导吗?