全网刷DeepSeek V4的benchmark,我想扒一下它底层的数学选择。这波突破真不是堆卡,而是一次漂亮的系统架构重构,核心就俩字:稀疏。
稀疏注意力本质在模拟物理局域性。全连接attention让全局互相盯,复杂度爆炸,就像火锅店里每个客人都要直接冲进后厨喊单,channel马上堵死。V4把视野限制在局部窗口加精选长程连接,O(n^2)砍到接近线性,这跟统计物理里只算近邻相互作用一个路数,省算力不丢精度。
MoE那套路由也更像统计物理的系综平均。不是逼一个dense模型硬扛整个语义空间,而是token动态分配给最擅长的专家。跟开火锅店一样,炒料和切菜各干各的,系统robustness反而比全能大厨高,泛化能力自然上去。
训练效率还有个隐藏亮点。V4没死磕标准SGD,明显借鉴了信息几何的自然梯度思想,顺着参数空间的黎曼曲率更新,避免在local minima附近震荡。这就像钓鱼找钓位,顺着水流结构走,比瞎抛竿省力气。
所以别看跑分了。大模型竞赛最后比的是谁对数学结构理解更深。算力只是hardware,数学才是根目录。