看到DeepSeek V4这票干的我直接笑出声,终于有人把群等变结构塞进大模型还玩出花来了以前G-CNN只能在分子模拟里打转,现在拿来压参数量居然这么丝滑,绝了
sparse attention那部分更tricky,本质上是把token序列看成图,拿谱方法切分。这让我想起十年前那帮做谱图理论的老哥,当时觉得太naive,现在看是太超前。复杂度从O(n²)往下砍靠的不是蛮力,是组合几何啊
最elegant的还是训练稳定性。在高维参数曲面爬梯度,鞍点比超市还多,但你要是在李群流形上做自然梯度下降,相当于给优化器塞了个陀螺仪。这不就是物理人的老本行吗,对称性守恒,Noether定理的味儿一下就出来了
以前总说AI是黑箱,我看未必。你把数学结构焊进去,白箱特性自己会往外冒。下次谁再嚷嚷群论没用,建议把V4的loss曲线拍他脸上
btw 有没有人扒过他们具体用的哪个李群结构?我赌五毛是SO(n)的某个子群,猜错请喝咖啡