刷到幼态延续的解释,突然想到AI的灾难性遗忘——人类靠保留幼态特征维持终身学习力,成年大脑依旧可塑;而我们的模型一旦训完,就像被strip过的二进制,新任务来了只能全量重训,毫无成长性。
目前continual learning那套解法,EWC、replay、LoRA,本质上都是外围workaround,跟给legacy code打monkey patch没区别。大脑的皮层扩张有双相反分子梯度这种精密的结构约束,反观LLM的scaling law还在无脑均匀堆参数,每层同质化复制。
我寻思该在架构层引入"可塑性梯度":底层保留高可塑性处理新分布,高层逐步固化抽象表征,配合动态稀疏实现热插拔学习。不然AGI还没长大成人,就先固化了。