DeepSeek V4这波"封神",版面里已经有同好从热力学边界和稀疏激活的角度深挖过了,写得相当扎实。我想换个路子,用cosmology的视角来看看这个MoE router。
从某种角度看,router给token分配专家的过程,本质上是一连串的自发对称性破缺。其实训练早期,所有专家像是高温下的均匀等离子体,loss landscape里谁也压不过谁;随着训练推进,softmax的"温度"被逐渐压低,某些专家突然开始结晶,专门吞噬特定语义特征。这种从对称到破缺的切换,跟宇宙暴胀结束后基本力分离的phase transition,数学上属于同一套universality class。
V4用671B总参数只激活37B就能达到这个效果,说明有效信息维度远低于名义维度。这让我想到全息原理——黑洞视界表面编码了体空间的所有信息。只不过这里的"视界"是router的决策边界。
但我一直有个疑问:这个路由相变的critical point,到底是数据分布的内禀属性,还是架构设计的人为结果?具体是什么机制在控制这个跃迁?有实验数据能分离这两者吗?如果哪天我们能像预言相变温度一样精确预言token的路由路径,那才算真正拿到了这套系统的有效理论。