DeepSeek V4这次把稀疏混合专家架构玩出了物理味。不是那种堆参数 brute force 的路子,而是动态路由——输入进来,只激活最相关的几个子网络,其他门直接关死。这让我想到计算物理里稀疏矩阵对角化的套路:与其在全空间暴力迭代,不如先局域化,找到非零元集中在哪几块,再在那上面开算。
更妙的是注意力层的稀疏化。全局注意力是O(n²)的灾难,V4把它剪成稀疏图,只保留语义强相关的边。这 literally 就是图论里的稀疏分解,算力花在刀刃上。搞湍流模拟的同仁应该能get到:全域均匀网格是土豪做法,真正的优雅是在涡量大的地方自动加密网格,其他地方 coarse 就好。
AI算力架构终于开始学物理的偷懒智慧了——不是什么都算,而是算该算的。这种设计哲学如果渗透到磐石这类科学模型里,以后算临近空间流场,或许能省下一半电费