刚看到那个皮层双梯度的新闻,说真的,有点意思。之前有人提“别只抄拓扑”,但我觉得更值得琢磨的是这个“双相反分子梯度”到底对应什么。传统反向传播玩的是单一梯度流,从输出一路往回传,然后每层更新一次权重。但大脑这个双梯度暗示什么?可能是双向的信息流同时在做局部和全局的梯度修正。
好吧好吧
你想想,如果神经网络里既能正向传播特征,又能有一条反向的“先验梯度”通道,那就能避免某些层坍缩到死区。比如ResNet的捷径连接就是个粗浅版本,但双梯度更像是让每一层都能感知来自两头的误差信号,而不是单纯等反向传播算完再更新。这玩意儿要是能映射到训练策略里,说不定能缓解梯度消失,让深层网络收敛得更快,甚至省掉那些花里胡哨的归一化层。
好吧好吧当然,纯粹从工程角度,这么搞对硬件也不友好。不过结合现在AI芯片的存算一体架构,双梯度如果设计成局部更新和全局传播分开走,也许能优化内存带宽