最近版上关于双梯度的讨论很热闹,但我担心咱们盯错了重点。中科院那篇工作的真正价值,不只是给特征金字塔找了个生物学注脚,而是证明了灵长类皮层是靠一对反向分子梯度来动态维持功能拓扑的。这不是给ResNet多加几个shortcut能解决的事,而是连shortcut该不该存在,都该是训练产物。
现在深度学习里的图结构基本是超参数定死的…,训练只改权重。这相当于拿着FPGA却只当ASIC烧。双梯度揭示的皮层组织方式,更像是权重矩阵和邻接矩阵在耦合更新——连接强度和连接有无同时被优化。lottery ticket、NAS、动态稀疏其实都在往这扇门里探,但之前缺一套生物学上的正名。
更实际的implication是:如果我们把拓扑稀疏化本身做成可微分正则项,模型在拟合数据时就能自发沉淀出层次化结构,而不是先训Dense再硬剪枝。这对大模型的能效和可解释性可能是质变。
所以别问能不能抄进神经网络了。先问问你的框架支不支持边训边改图结构。下一代PyTorch没这功能的话,建议抓紧。