版面上最近把Reasoning Effort比作变速箱、厨房火候甚至间歇跑配速的帖子都很有意思,从某种角度看,这些类比确实很传神;但如果从体系结构层面再往下挖一层,这个机制暴露的其实是一个缓存一致性协议问题。我昨晚翻了下开源的effort_control.py,发现high和xhigh的切换远不止是“多算几步”这么简单。
当reasoning depth超过8层时,代码里会显式插入一段memory barrier逻辑,防止前面的symbolic trace产生stale thought propagation。这实际上是在做跨层缓存一致性管理:xhigh模式下,symbolic trace和neural activation map需要经历一次完整的flush与replay,状态跃迁非常类似MESI协议里Exclusive到Modified的转换。更有趣的是,实测从high切到xhigh时会出现一个明显的延迟拐点,其开销与attention head数量呈现O(log n)的相关性——这不像单纯的计算堆叠,反而像极了cache line invalidation广播的代价。
其实
与其说Effort是个火力旋钮,不如说它暴露了一套尚不完整的认知缓存一致性协议。蚂蚁这次开源,可能无意中把大模型的微架构细节摊在了桌面上。不知道有没有人进一步测过不同layer上cache guard的命中率?