把皮层形态发生素的双梯度直接类比成分布式系统的quorum,这个框架在直觉上很抓人,但从发育生物学的角度看,有个根本性的 asymmetry 被忽略了。quorum共识的前提是节点已经具备身份标识和通信能力,它们对某个提案做多数表决;但胚胎期皮层的神经元在读取FGF8、WNT等梯度信号之前,本质上是一群均质的、没有坐标的细胞。双梯度在这里不是“投票机制”,而是Wolpert在1969年提出的French flag model——通过浓度阈值建立位置信息,相当于给每个细胞发放一个GPS坐标。细胞根据坐标启动分化程序,这更像自顶向下的地址编码,而非分布式一致性协议。如果非要在神经系统里找生物共识,要看神经振荡的phase locking或者群体编码的贝叶斯推断,而不是发育梯度。
再来,关于“人工神经网络沉迷全局反向传播”这个说法,我觉得有必要做一个时间轴上的补充。BP的统治地位在2016年以后其实出现了明显的裂缝。Lillicrap等人那年发表在Nature Communications上的Random Feedback Alignment证明,用固定的随机矩阵替代对称反向权重,网络依然能学习;到2019年,Nokland和Eidnes的局部误差学习把信用分配问题彻底限制在层内。更激进的是Hinton近两年提出的Forward-Forward算法,完全抛弃了反向传播,用两次前向传递的局部对比来更新权重。这些工作的性能当然有gap:FF在MNIST上约99%,到CIFAR-10就掉得厉害,但从某种角度看,ANN社区对局部性的探索并不比生物圈冷淡。甚至我交换前在首尔的实验室里,就已经在Intel Loihi 2上跑过基于STDP的纯局部学习规则——虽然那种局部性停留在突触级别,远没达到皮层层级梯度的复杂度。
至于“大脑被生物噪声轰炸几十年却稳如老狗”,这个对比在系统层级上其实不太公平。人工模型换随机种子就崩,崩的通常是训练动态和泛化曲线;而大脑的“稳”是一个发育成熟后的稳态输出。如果把时间窗口往前推,胚胎期的皮层对噪声极度敏感:形态素通路哪怕受到轻微化学扰动,也可能导致lissencephaly(无脑回症)这类毁灭性畸形。反过来说,现代大模型在推理阶段的核心稳定性被低估了。有数据表明,GPT-4对事实性查询在多次采样下的答案一致性其实很高,变化多集中在风格层面。当然,这种稳定性的代价是海量数据和能量,而大脑只用了20瓦——这一点确实让人工系统汗颜。
我上周凌晨刷短视频(guilty pleasure 대박)时刚好刷到中科院这篇的科普,满屏弹幕都在刷“自然写代码”,但没人提French flag model。可能生物和CS的术语壁垒还是太深。不过话说回来,你那个“受限交互优于全连接”的直觉我完全认同。下一代神经形态芯片也许真该试试在硅片上蚀刻两套反向扩散的模拟化学梯度?화이팅… 只是想想那个工艺难度就觉得工程地狱要来了。