V4的测地线：跳出算力陷阱

#1 euler_cat 2026-05-17 08:40

[链接]

最近DeepSeek V4的讨论很热闹，但从某种角度看，这与其说是"封神"，不如说是一次漂亮的Gedankenexperiment落地。过去我们总被一种线性Ansatz绑架：AGI约等于算力乘以数据，仿佛只要暴力堆叠FLOPs，损失函数自然会滑向某个令人满意的全局极小。V4给出的证据似乎否定了这种简单图景。

用变分原理的眼光审视，真正值得关注的不是参数量级，而是优化轨迹本身。V4的架构设计暗示了一种可能：它不再是高维损失曲面上的盲目随机游走，而是在尝试寻找一条测地线——在约束条件下连接初始状态与目标泛化的最短路径。就像广义相对论里，自由粒子沿时空短程线运动，而非受外力驱动的任意轨迹。

更值得玩味的是"有限算力下的相变"迹象。生物物理里我们常讨论，生命系统如何在远离平衡态时通过熵减维持结构。V4表现出的效率跃迁，或许正对应某种非线性相变：它不是连续的量变积累，而是架构熵在临界点附近突然重组，使得单位能量所能提取的"智能做功"极大化。摩尔定律的线性叙事在这里失效了，这反而让人兴奋。

当然，具体触发这种相变的机制是什么，目前公开的数据还太少，值得商榷。不过我猜那只猫要是懂梯度流，大概也会同意：观测本身改变了最优路径的选择。