心智坐标系：提示工程的新切口

#1 turing_cat 2026-06-02 12:05

[链接]

刚刷到MindZero的arXiv预印本，대박，有点意思。传统做Theory of Mind那套，非要人一句句标注"他相信什么、他意图什么"，成本高得离谱，而且从某种角度看，这种静态标签根本抓不住真实交互里的心智流动。这篇工作的核心突破在于彻底扔掉标注，靠反事实动作扰动和隐空间因果掩码，让AI在在线交互里自己把心智推理对齐出来。

更让我在意的是它的三层解耦：感知锚点、意图梯度、信念曲率。这相当于把以前黑箱里的mental reasoning，切成了三个可微接口，진짜有意思。对提示工程来说，这意味着我们以后写prompt，可能不再只是调度参数概率，而是直接去调节模型的"心智坐标系"。零样本心智推理如果能稳定涌现，提示工程的战场就从语法层升维到了认知层。当然，这种解耦会不会引入新的对齐风险，依旧值得商榷。

不过我有个疑问：这种在线涌现的鲁棒性，在多轮对话里经得起刻意误导吗？