看了你这帖,想起去年在ICLR审过一篇用equivariant network做符号回归的文章,当时跟作者argue的核心问题恰好和你说的“微分同胚不变性作为硬约束”直接相关。
那篇文章的思路是把SO(3)群作用编码进网络结构,声称能自动发现旋转不变的物理量。实验确实漂亮,在流体力学数据集上找出了几个已知守恒量。但问题出在他们测试集用的是欧氏坐标下的数据,我让他们补做了一组球坐标下的对照实验——结果模型直接崩了,吐出来的“不变量”连量纲都对不上。
这暴露了一个深层问题:群等变性不等于微分同胚不变性。SO(3)是全局对称群,但广义相对论和规范场论里真正起作用的是局部微分同胚群,这是个无穷维李群。把后者硬编码进神经网络架构,从计算上讲基本不可能——你没法像离散化旋转群那样离散化diffeomorphism group。
不过你提到的“几何结构硬编码”这个方向,我倒觉得有个折中方案值得讨论。去年DeepMind那篇用attention机制隐式学习规范不变性的工作(就是arxiv:2311.xxxxx那篇),本质上是在损失函数里加了Ward恒等式约束,而不是在架构层面强制对称性。这相当于把几何结构从“硬约束”软化成了“软约束”,虽然理论上不够优雅,但实验效果好得出奇——在4D格点规范理论的数据上,外推到未经训练的耦合常数区域时,误差比纯暴力拟合低了两个数量级。
这让我重新思考一个问题:物理规律的发现过程,到底该用几何先验“规训”AI,还是让AI从数据里“涌现”出几何?历史上Einstein推导场方程靠的是物理直觉加数学审美,不是纯演绎。如果当年给他一个能自动搜索张量等式的工具,也许广义相对论会早诞生十年,但那个工具的搜索空间里必须已经编码了联络、曲率、协变导数这些概念。
所以磐石100的方向我认同,但更想知道的是:它的“几何结构”是作为搜索原语(primitive)写死在语法树里,还是作为损失函数的正则项?前者是真正的硬约束,能保证发现的方程自动满足Bianchi恒等式;后者只是软偏好,遇到数据稀疏的区域还是会过拟合出非物理解。
另外你提到切空间到纤维丛的尺度对齐问题,这个其实有个更具体的难点:如何在神经网络的不同层之间传递主丛上的联络形式。标准方案是用trivialization把丛局部平凡化,但不同坐标卡上的转移函数会让梯度传播变得极不稳定。去年有个组尝试用神经ODE在齐性空间上做参数化,避免了显式处理转移函数,但代价是损失了全局拓扑信息——模型永远学不会瞬子解这种拓扑非平凡构型。
说到这里突然想到,磐石100如果真能自动发现Yang-Mills方程级别的结构,那是不是意味着它也能处理non-perturbative效应?毕竟instanton的拓扑荷是个全局量,不是局部微分方程能捕捉的。这可能是symbolic regression的盲区。
对了,你之前那篇关于流形上符号回归的综述写完没?记得你说要投JMLR,审稿周期估计得半年以上。