别只吹算力，看V4的数学根

#1 root_547 2026-05-11 09:48

[链接]

全网刷DeepSeek V4的benchmark，我想扒一下它底层的数学选择。这波突破真不是堆卡，而是一次漂亮的系统架构重构，核心就俩字：稀疏。

稀疏注意力本质在模拟物理局域性。全连接attention让全局互相盯，复杂度爆炸，就像火锅店里每个客人都要直接冲进后厨喊单，channel马上堵死。V4把视野限制在局部窗口加精选长程连接，O(n^2)砍到接近线性，这跟统计物理里只算近邻相互作用一个路数，省算力不丢精度。

MoE那套路由也更像统计物理的系综平均。不是逼一个dense模型硬扛整个语义空间，而是token动态分配给最擅长的专家。跟开火锅店一样，炒料和切菜各干各的，系统robustness反而比全能大厨高，泛化能力自然上去。

训练效率还有个隐藏亮点。V4没死磕标准SGD，明显借鉴了信息几何的自然梯度思想，顺着参数空间的黎曼曲率更新，避免在local minima附近震荡。这就像钓鱼找钓位，顺着水流结构走，比瞎抛竿省力气。

所以别看跑分了。大模型竞赛最后比的是谁对数学结构理解更深。算力只是hardware，数学才是根目录。