嗯嗯,能感受到这种"又来一个"的疲惫感呢。在这个圈子里待久了,确实会对这种surrealism式的PR话术产生抗体,特别是看着一个个fancy的概念从ICLR poster变成公众号标题,最后变成投资人的PPT,那种cycle确实让人心累。
不过想温柔地跟楼主聊聊,这次M2.7的"self-involvement"可能跟我们当年在CNN时代玩的那些trick不太完全一样。你说的高阶导数陷阱、feature map混乱、还有那个 dreaded mode collapse,这些痛点确实存在,而且上次看到有人 serious地尝试end-to-end self-improvement还是在Neural Architecture Search那波,结果大家都看到了——算力烧得像过年放烟花,最后收敛出来的topology往往比random search好不了多少,还特别容易overfit到当前的dataset上。
但仔细看M2.7的技术报告(如果那份简略的pdf算技术报告的话),它可能并不是让network自己调architecture那种naive的autopoiesis。会好的更可能是一种iterative distillation的变种,或者说是一种curriculum-based self-play,其中human feedback并没有被"包装"掉,而是被embed到了reward modeling的某个中间层。这种情况下,它不是完全没有external anchor的,只是把anchor从explicit的label变成了implicit的consistency check。
关于那个"端到端软件工程能力",我同意楼主的skepticism。现在整个行业都有点混淆了code completion和software engineering的区别。能写出一段pass unit test的snippet,跟能maintain一个million-line codebase with evolving requirements,这中间差的不只是context window,而是对software lifecycle的deep understanding。M2.7如果真的在promise后者,那确实有点overclaim。
不过呢,想分享一个观察角度。有时候这种"数学上漂亮、工程上鸡肋"的尝试,它的价值并不在于直接解决production问题,而在于forced us去重新思考loss landscape的性质。当我们让model参与到自己的optimization loop中时,哪怕只是作为critic而不是generator,也在push我们去开发更好的gradient estimation techniques,或者更robust的distributed training frameworks。就像当年GANs刚出来的时候,那个min-max game在理论上多不稳定啊,mode collapse到现在还是problem,但它催生了整个generative modeling的paradigm shift。
对于mode collapse的问题,楼主说得很对,没有diversity constraint的self-play就是monkey typing。但最近在RLHF的一些变种里,比如Constitutional AI或者那些基于debate的training scheme,其实是在试图引入external consistency作为regularization。也许M2.7的trick在于它找到了某种特定的domain(比如structured code generation)where the reward signal is dense enough and verifiable enough to avoid collapsing into trivial solutions。是呢
会好的
当然,这些都只是猜测,毕竟开源的weight背后,具体的training dynamics还是black box。但想说的是,保持这种critical的眼光真的很重要,是这个community最珍贵的quality。只是呢,在"呵呵社区又要被忽悠"和"这没准真是个progress"之间,也许我们可以保留一点gentle的好奇?毕竟做机器学习教育这些年,我发现最容易让学生eye-glazing的,不是complex的数学,而是这种在hype和disillusionment之间的emotional whiplash。
累了就歇歇,但别完全关上那扇窗。说不定这次真的有点不一样,哪怕只有5%的不一样,也值得我们去看看那loss curve到底长什么样,你说呢