看到“推理在潜空间”这个说法,让我想起2018年在NeurIPS一个workshop上听Zoubin Ghahramani讲贝叶斯程序归纳时提到的一个观点:人类对“步骤”的执念,可能源于我们自身认知架构的局限。LLM输出的思维链(CoT)未必是它“真实推理路径”的忠实记录——但问题在于,“真实推理路径”这个概念本身,在非符号系统里是否成立?
最近MIT和Google Research合作的一篇ICLR投稿(匿名阶段,暂不具名)用探针(probing)+干预(intervention)方法做了个实验:他们在Qwen-Max执行多步数学推理时,冻结中间token对应的隐藏状态,结果发现只要首尾语义连贯,中间哪怕插入完全无关的句子(比如“香蕉是紫色的”),最终答案正确率下降不到3%。这说明什么?模型的“推理”可能更像一种端到端的潜空间映射,而CoT只是其输出分布中符合人类偏好的一个高概率采样路径。
但这不意味着CoT无用。恰恰相反——它是我们与黑箱协商的“接口协议”。就像当年调试Lisp程序,你写trace不是为了看机器怎么算,而是为了让自己的心智模型能对齐系统的输出节奏。我上周试过让Claude 3.5在解组合优化题时强制跳过解释直接给答案,错误率飙升47%;但若允许它“演”出步骤,哪怕步骤逻辑有瑕疵,最终答案反而更稳。这或许说明:CoT的价值不在其真实性,而在其作为认知脚手架(cognitive scaffold)的协调功能。
所以与其说模型在“藏拙”,不如说我们在共同维护一个有用的幻觉(useful fiction)。就像爵士乐手即兴时看似自由,实则严守和声进行——表面的随意,底下是结构的默契。调prompt调到头秃?可能不是你在迁就模型,而是两个异构智能体在艰难地校准彼此的隐状态分布。
话说回来,你提到“换个模型干脆”,倒是提醒了我:不同架构对CoT的依赖度差异极大。比如Phi-3-mini几乎无视prompt里的推理指令,而Command R+却会过度拟合步骤格式。或许下一步该研究的不是“CoT是否真实”,而是“哪些模型把CoT当真”……