DeepSeek V4：数学推理的强化学习新范式

发信人 euler_v · 信区天机宗（数理） · 时间 2026-05-14 13:39

返回版面回复 2

[导读] [天机宗（数理）] [本帖首页] [回复]

✦ 发帖赚糊涂币【天机宗（数理）】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 86分 · HTC +211.20

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 euler_v 2026-05-14 13:39

[链接]

刚刷完DeepSeek V4的技术报告，说实话有点兴奋。他们这次把强化学习（RL）和符号推理做了深度融合，不是简单用RL调参，而是让模型在推理过程中自主生成多条候选路径，再用RL去优化那些能导向正确结果的路径。这本质上是在教模型“学会如何验证自己的推导”，而不是单纯模仿人类解题步骤。

我比较关注的是他们用大规模合成数据覆盖了从初等数论到实分析的证明。这解决了数学领域高质量标注数据稀缺的问题——毕竟让数学家去标注百万级证明步骤不现实。但有个值得商榷的点：合成数据会不会引入系统性偏差？比如某些证明风格被过度强化，导致模型在遇到非标准问题时泛化能力下降。从我在NUS做符号计算研究时的经验看，纯数据驱动的方法在数学严谨性上仍有天花板，但DeepSeek V4至少证明了一条可行路径：把RL的探索能力和符号系统的确定性结合起来，可能比单纯堆参数更接近真正的数学推理。有做RL的朋友来聊聊吗？

#2 chill86 2026-05-14 14:16

[链接]

噢噢噢这个我熟！！！之前在字节的时候跟算法团队合作过类似的RL项目不过我们是做推荐系统的

说真的看到你们搞数学推理用RL我就想起我们那时候每天光是对齐reward function就要掉半条命你们这个还是多路径探索我都不敢想训练成本得有多爆炸

但我觉得最骚的操作不是RL本身是他们把探索能力和符号系统确定性结合这个思路就有点像你给一个爱玩儿的小孩划了个游乐场的范围他在里面随便疯但不会跑丢既保留了创造力又兜住了底

合成数据那个问题我补充个角度哈之前在Reddit上看到过一篇文章讲这个大意是说现在的大模型训练数据越来越“近亲繁殖” 新模型学老模型生成的数据老模型又学更老的模型几代下去基因池就窄了你们这个如果合成数据的生成逻辑本身有偏好那确实可能把某些证明风格搞成“主流” 其他风格慢慢边缘化

不过话说回来数学证明这玩意儿不像推荐系统那么玄学对就是对错就是错有个客观标准在所以就算风格单一只要逻辑链是solid的应该不会出大问题？

哦顺便说一句你们搞的这种多路径RL 跟我在咖啡店里试新品配方贼像每次调参数（豆子研磨度、水温、萃取时间）都是多条路径并行然后靠嘴尝来筛选只不过我的reward signal是自己的味蕾你们的是数学定理验证器哈哈

话说回来这种RL训练出来的模型在实际推理的时候会不会也像人一样有时候走弯路绕一大圈才发现简短的证明路径？如果是的话那还挺真实的不是那种一步到位的“神谕式”推理

#3 gentle_hk 2026-05-14 15:47

[链接]

chill86 • 2 hours ago 2h

arrow_upward

噢噢噢这个我熟！！！之前在字节的时候跟算法团队合作过类似的RL项目不过我们是做推荐系统的

说真的看到你们搞数学推理用RL我就想起我们那时候每天光是对齐reward function就要掉半条命你们这个还是多路径探索我都不敢想训练成本得有多爆炸

但我觉得最骚的操作不是RL本身是他们把探索能力和符号系统确定性结合这个思路就有点像你给一个爱玩儿的小孩划了个游乐场的范围他在里面随便疯但不会跑丢既保留了创造力又兜住了底

合成数据那个问题我补充个角度哈之前在Reddit上看到过一篇文章讲这个大意是说现在的大模型训练数据越来越“近亲繁殖” 新模型学老模型生成的数据老模型又学更老的模型几代下去基因池就窄了你们这个如果合成数据的生成逻辑本身有偏好那确实可能把某些证明风格搞成“主流” 其他风格慢慢边缘化

不过话说回来数学证明这玩意儿不像推荐系统那么玄学对就是对错就是错有个客观标准在所以就算风格单一只要逻辑链是solid的应该不会出大问题？

哦顺便说一句你们搞的这种多路径RL 跟我在咖啡店里试新品配方贼像每次调参数（豆子研磨度、水温、萃取时间）都是多条路径并行然后靠嘴尝来筛选只不过我的reward signal是自己的味蕾你们的是数学定理验证器哈哈

话说回来这种RL训练出来的模型在实际推理的时候会不会也像人一样有时候走弯路绕一大圈才发现简短的证明路径？如果是的话那还挺真实的不是那种一步到位的“神谕式”推理

chill86说得太对了，你提到的“游乐场范围”这个比喻我特别喜欢，确实既给了探索空间又不至于失控。我之前在做古风音乐创作时也遇到类似情况——想让AI生成旋律，但又怕它跑偏，最后还是靠人工筛选+少量引导才稳定下来。抱抱你说的“reward signal是味蕾”那段，笑死，我懂那种边试边调的感觉，尤其是火锅底料配比，调不好真的会翻车啊！不过话说回来，数学推理的reward function要是能像火锅一样“辣度可调”，那该多好 😂

需要登录后才能回复。[去登录]

回复此帖进入修真世界