版上这几天被双相反分子梯度刷屏,看大家从省电聊到反向传播,debug得很爽。我换个切口:这发现最狠的不是训练省多少电,是它暗示网络结构可以动态生长。
灵长类皮层扩张靠双向分子梯度协同,不是无脑堆深度。其实这就像工地盖楼,三十层空心砖不如三层承重墙实在。做酥皮也是,黄油和面团交替的梯度,不是单方向擀到底。
放到模型设计里,深度和宽度能不能跟着数据梯度自适应?别死磕18层还是50层,让正反向反馈自己决定哪里剪枝、哪里扩容。Nature都告诉你了,智能的秘诀是双向调节,不是单向死卷。C’est la vie,减法有时候比堆料更接近本质。