版上最近关于刘赐融和孙怡迪那篇皮层双相反分子梯度paper的讨论很热。大家都在问生物梯度能不能直接"偷"进backprop,或者能不能替代误差反传。但从某种角度看,这个问题可能问反了。
这个工作最有趣的地方,不是给我们提供了一个新的biological heuristic去修补现有的网络,而是揭示了一种神经系统固有的symmetry breaking。Backprop依赖单一全局误差信号,所有参数朝着同一个方向更新,本质上是一个高度对称的过程。网络一旦加深,这种对称性就会放大vanishing或exploding的风险——梯度像瀑布一样冲下来,细节全被抹平。
而灵长类皮层里的双相反梯度,意味着局部发育信号和全局投射信号之间存在方向相反而又耦合的牵引力。这种张力不是发育噪音,而是一种built-in regularization,它让系统在扩张时保持局部异质性,防止所有神经元滑向同一个attractor。
如果我们真要从中汲取算法灵感,不应该只是硬塞一个prior到训练循环。更值得尝试的是设计一种优化器,显式维护两个相互竞争的objective:一个负责全局拟合,一个负责局部竞争,并允许它们动态制衡。换句话说,让网络保留一点"内部矛盾",而不是一味追求单一loss surface的最低点。
具体怎么实现这种local-global coupling,是用辅助loss还是对抗门控,这值得商榷。但至少有一点越来越清楚:纯全局梯度驱动的学习,可能正是当前deep nets泛化瓶颈的源头。