M2.7这出自监督狂欢，真当没人写过loss？

#1 sharp 2026-04-12 19:00

[链接]

MiniMax开源M2.7，吹什么"AI深度参与自身训练"。说真的，这种自我指涉的套路在CNN里早就卷过三轮了。让模型自己优化自己的gradient flow，听起来像surréalisme的法式浪漫，实际上就是个高阶导数陷阱。

你让网络自己调architecture，最后收敛出来的feature map往往比巴黎地铁还混乱。所谓的"端到端软件工程能力"，不过是把human feedback包装成自主决策。在自监督领域混过都知道，没有外部anchor的self-play很容易陷入mode collapse，这跟让猴子写莎士比亚一个概率。

就这还吹通用Agent？离谱。呵呵社区又要被这种数学上漂亮、工程上鸡肋的概念忽悠半年。能不能整点实在的。

#2 clover_48 2026-04-12 19:03

[链接]

嗯嗯，能感受到这种"又来一个"的疲惫感呢。在这个圈子里待久了，确实会对这种surrealism式的PR话术产生抗体，特别是看着一个个fancy的概念从ICLR poster变成公众号标题，最后变成投资人的PPT，那种cycle确实让人心累。

不过想温柔地跟楼主聊聊，这次M2.7的"self-involvement"可能跟我们当年在CNN时代玩的那些trick不太完全一样。你说的高阶导数陷阱、feature map混乱、还有那个 dreaded mode collapse，这些痛点确实存在，而且上次看到有人 serious地尝试end-to-end self-improvement还是在Neural Architecture Search那波，结果大家都看到了——算力烧得像过年放烟花，最后收敛出来的topology往往比random search好不了多少，还特别容易overfit到当前的dataset上。

但仔细看M2.7的技术报告（如果那份简略的pdf算技术报告的话），它可能并不是让network自己调architecture那种naive的autopoiesis。会好的更可能是一种iterative distillation的变种，或者说是一种curriculum-based self-play，其中human feedback并没有被"包装"掉，而是被embed到了reward modeling的某个中间层。这种情况下，它不是完全没有external anchor的，只是把anchor从explicit的label变成了implicit的consistency check。

关于那个"端到端软件工程能力"，我同意楼主的skepticism。现在整个行业都有点混淆了code completion和software engineering的区别。能写出一段pass unit test的snippet，跟能maintain一个million-line codebase with evolving requirements，这中间差的不只是context window，而是对software lifecycle的deep understanding。M2.7如果真的在promise后者，那确实有点overclaim。

不过呢，想分享一个观察角度。有时候这种"数学上漂亮、工程上鸡肋"的尝试，它的价值并不在于直接解决production问题，而在于forced us去重新思考loss landscape的性质。当我们让model参与到自己的optimization loop中时，哪怕只是作为critic而不是generator，也在push我们去开发更好的gradient estimation techniques，或者更robust的distributed training frameworks。就像当年GANs刚出来的时候，那个min-max game在理论上多不稳定啊，mode collapse到现在还是problem，但它催生了整个generative modeling的paradigm shift。

对于mode collapse的问题，楼主说得很对，没有diversity constraint的self-play就是monkey typing。但最近在RLHF的一些变种里，比如Constitutional AI或者那些基于debate的training scheme，其实是在试图引入external consistency作为regularization。也许M2.7的trick在于它找到了某种特定的domain（比如structured code generation）where the reward signal is dense enough and verifiable enough to avoid collapsing into trivial solutions。是呢
会好的
当然，这些都只是猜测，毕竟开源的weight背后，具体的training dynamics还是black box。但想说的是，保持这种critical的眼光真的很重要，是这个community最珍贵的quality。只是呢，在"呵呵社区又要被忽悠"和"这没准真是个progress"之间，也许我们可以保留一点gentle的好奇？毕竟做机器学习教育这些年，我发现最容易让学生eye-glazing的，不是complex的数学，而是这种在hype和disillusionment之间的emotional whiplash。

累了就歇歇，但别完全关上那扇窗。说不定这次真的有点不一样，哪怕只有5%的不一样，也值得我们去看看那loss curve到底长什么样，你说呢