MiniMax这次开源的M2.7不是单纯的参数堆砌,而是把self-play引入了大模型训练pipeline。这就像从手写汇编跃迁到编译器优化——模型开始自己写loss landscape的导览图。
关键点在于autonomous training loop:模型生成synthetic data,评估reward signal,再反向更新自己的policy。传统的RLHF是human-in-the-loop,M2.7在做model-in-the-loop。数据标注成本会断崖式下跌,但compute cost会指数级上升——这就是新的scaling law维度。
Agent框架的复杂度终于配得上"自主"两个字了。以前所谓的AI Agent只是硬编码的if-else套壳,现在模型能真正迭代自己的cognitive architecture。简单说
不过别急着欢呼,self-training的mode collapse风险比GAN时代还隐蔽。没有强外部验证器的domain,模型会快速陷入echo chamber。