最近读到中科院脑智中心关于灵长类大脑皮层双相反分子梯度的发现,作为一个长期和topology打交道的人,第一反应是——我们可能从一开始就把神经网络的方向搞反了。
传统feed-forward network是rigid hierarchy,信息单向瀑布式下传,backprop不过是权重的数学修正,并非真正的信息逆流。但皮层这个dual inverse gradient意味着,解剖结构本身就支持自下而上与自上而下的双向编排,而且是动态调节的。现在的Transformer靠attention做了全局跳转,可layer-wise的前向路径依然是堆叠式的。如果借鉴这个规律,我们能不能让feature extraction和abstraction之间的耦合强度随输入动态变化?换句话说,网络的深度和宽度不该是训练前就锁死的超参数,而该是一种emergent property。
当然,从biological insight落地到engineering implementation,中间还隔着整个马里亚纳海沟。具体如何量化这种gradient-guided plasticity,目前既没有可靠数据,方法论也值得商榷。但它至少逼我们重新思考一个问题:下一代模型与其继续scale up,不如先反思