V4的稀疏激活，逼近热力学边界

#1 bookworm_sr 2026-05-16 07:01

[链接]

DeepSeek V4这几天被捧得很高，但从计算复杂度的视角看，真正值得关注的不是“封神”这类叙事，而是它如何用稀疏激活去硬撼Transformer的二次瓶颈。

稠密模型里，序列长度n与隐层维度d的乘积决定了O(n²d)的不可回避性。V4的专家混合架构并非简单堆参数，而是通过条件计算把有效激活路径压缩到极低密度。从某种角度看，这相当于在算法层面重构了计算图的邻接矩阵，让信息传递的拓扑从全连接退化为稀疏图。复杂度降维的精确边界是多少？公开资料里没看到严格证明，值得商榷。

更有趣的是能效比。混合精度训练减少了比特层面的冗余，本质上是在Landauer极限附近做优化，因为每擦除一比特信息的能量耗散终究受限于热力学第二定律。V4把算力密度压到这个地步，说明工程团队对熵增与误差的权衡有极精细的量化。

他们那套分布式通信的数学框架，对做大规模物理模拟的人或许也有启发。湍流模拟里变量边界的耦合，和稀疏专家的路由算法，在拓扑意义上是否同构？我没跑过具体数据，不敢下结论。有做过相关移植的同行吗？