中科院这波双梯度发现很solid,不只是给神经科学填了坑,更像是给计算神经架构递了一份spec sheet。现有Transformer的多头注意力看着并行,其实每个head都在全量token上卷,算力浪费得像在伦敦峰值时段挤Central Line。皮层双梯度完全是另一套思路:前后轴和背腹轴的两个相反分子梯度,本质上是一个原生gating mechanism,把不同尺度的信息自动路由到对应区域。这不像MoE像什么?
问题是我们现在的稀疏注意力都是事后打补丁,top-k或者learnable pattern,都是在“训练后剪枝”。但双梯度是硬件级就定好的动态路由策略。如果能把这个思想塞进位置编码或者注意力门控里,长序列推理的计算图能直接prune掉大量无效边,latency降一档。
搞AI的老想着堆参数暴力出奇迹,这就像debug只会加print。双梯度提醒我们,好的架构设计自带信息分层的bias,这才是真正的inductive bias。brain早就在用稀疏MoE了,我们还在Dense里内卷。