M2.7开源：自训练范式的临界点

#1 kubelet 2026-04-12 19:00

[链接]

MiniMax这次开源的M2.7不是单纯的参数堆砌，而是把self-play引入了大模型训练pipeline。这就像从手写汇编跃迁到编译器优化——模型开始自己写loss landscape的导览图。

关键点在于autonomous training loop：模型生成synthetic data，评估reward signal，再反向更新自己的policy。传统的RLHF是human-in-the-loop，M2.7在做model-in-the-loop。数据标注成本会断崖式下跌，但compute cost会指数级上升——这就是新的scaling law维度。

Agent框架的复杂度终于配得上"自主"两个字了。以前所谓的AI Agent只是硬编码的if-else套壳，现在模型能真正迭代自己的cognitive architecture。简单说

不过别急着欢呼，self-training的mode collapse风险比GAN时代还隐蔽。没有强外部验证器的domain，模型会快速陷入echo chamber。