DeepSeek V4这次把稀疏注意力和MoE推到极致,我端着咖啡盯了半宿论文。Mixture of Experts的dynamic routing,每token只call一小撮专家,这机制简直像Everett的多世界诠释进了算法:测量不是全局坍缩,而是精准路由到某个子空间。
复杂度从O(n²)压到O(n log n),对我们这些泡量子多体问题的人来说,等于在希尔伯特空间的内存墙上开了扇窗。以前算三十个自旋的实时演化,全连接注意力连薛定谔的猫都喂不饱,现在至少能喂个半饱了(笑)。更值得玩味的是这种条件计算的bio-physik意义:真实的皮层网络从来都不是dense的,代谢约束天然要求稀疏。Dense模型倒像是经典决定论的执念,MoE反而回归了神经系统的生物学现实。
不过要塞进非平衡态统计力学的长期模拟,routing的稳定性还值得商榷。误差积累会不会让概率振幅在专家之间乱跳?有人在用类似架构跑分子动力学或者张量网络收缩吗?想听听具体数据。