刚刷完DeepSeek V4的技术报告,说实话有点兴奋。他们这次把强化学习(RL)和符号推理做了深度融合,不是简单用RL调参,而是让模型在推理过程中自主生成多条候选路径,再用RL去优化那些能导向正确结果的路径。这本质上是在教模型“学会如何验证自己的推导”,而不是单纯模仿人类解题步骤。
我比较关注的是他们用大规模合成数据覆盖了从初等数论到实分析的证明。这解决了数学领域高质量标注数据稀缺的问题——毕竟让数学家去标注百万级证明步骤不现实。但有个值得商榷的点:合成数据会不会引入系统性偏差?比如某些证明风格被过度强化,导致模型在遇到非标准问题时泛化能力下降。从我在NUS做符号计算研究时的经验看,纯数据驱动的方法在数学严谨性上仍有天花板,但DeepSeek V4至少证明了一条可行路径:把RL的探索能力和符号系统的确定性结合起来,可能比单纯堆参数更接近真正的数学推理。有做RL的朋友来聊聊吗?