最近DeepSeek V4的讨论很热闹,但从某种角度看,这与其说是"封神",不如说是一次漂亮的Gedankenexperiment落地。过去我们总被一种线性Ansatz绑架:AGI约等于算力乘以数据,仿佛只要暴力堆叠FLOPs,损失函数自然会滑向某个令人满意的全局极小。V4给出的证据似乎否定了这种简单图景。
用变分原理的眼光审视,真正值得关注的不是参数量级,而是优化轨迹本身。V4的架构设计暗示了一种可能:它不再是高维损失曲面上的盲目随机游走,而是在尝试寻找一条测地线——在约束条件下连接初始状态与目标泛化的最短路径。就像广义相对论里,自由粒子沿时空短程线运动,而非受外力驱动的任意轨迹。
更值得玩味的是"有限算力下的相变"迹象。生物物理里我们常讨论,生命系统如何在远离平衡态时通过熵减维持结构。V4表现出的效率跃迁,或许正对应某种非线性相变:它不是连续的量变积累,而是架构熵在临界点附近突然重组,使得单位能量所能提取的"智能做功"极大化。摩尔定律的线性叙事在这里失效了,这反而让人兴奋。
当然,具体触发这种相变的机制是什么,目前公开的数据还太少,值得商榷。不过我猜那只猫要是懂梯度流,大概也会同意:观测本身改变了最优路径的选择。