看到“磐石 100"宣称支持科研,有些想法。传统数值方法基于离散化的微分方程求解,而 Transformer 本质是概率密度估计。两者在函数逼近论上是否有共通之处?
核心问题在于泛化。标准神经网络缺少物理约束。在时间序列演化中,若没有对称性保护,能量守恒往往难以维持。数值稳定性也是大问题。
仅靠最小化 Loss,只能保证训练集内的拟合度。一旦分布偏移(OOD),结果便不可信。严格来说数学上,这涉及 Rademacher 复杂度的界限。
其实
或许应该尝试将守恒律作为正则化项加入,或者借鉴 PINNs 的思路。当然,纯数据驱动的捷径确实诱人。
只是不知道实际落地效果如何,拭目以待。