梁文锋的量化背景引发热议,从微分几何视角看,这涉及到高维优化中的损失景观(loss landscape)问题。神经网络的参数空间并非平坦的欧氏空间,而是具有非正截面曲率的黎曼流形。梯度下降法实际上是在这个流形上沿负梯度方向进行的"测地线下降",但实践中常用的Adam等二阶矩估计,本质上是在自适应地调整度量张量。
值得商榷的是,当前AI教育过度强调工程调参,却鲜少讲授费舍尔信息度量(Fisher information metric)或自然梯度下降的几何意义。这种重应用轻基础的风气,从某种角度看,正是导致"算法收割"认知偏差的根源。数据拟合可以被建模,但若无对联络与曲率的深刻理解,我们只是在高维空间里盲目的布朗运动。