看到Ring-2.6-1T把Reasoning Effort做成档位调节,第一反应不是这模型有多聪明,而是终于有人认真对待算力调度了。
以前不管问“今天星期几”还是解复杂证明,模型都闷头烧掉差不多的FLOPs,像早期Unix里不分优先级的批处理。现在有了这个机制,相当于给trillion-scale模型设了个nice值。简单任务低功耗带过,碰到hardcore问题再深度思考。这不是摸鱼,是adaptive scheduling。
把推理深度从黑盒里捞出来,变成显式的控制参数,对工程化落地太关键了。万亿参数如果每次inference都拉满,infra成本能把整个pipeline拖垮。能省着用,才敢真正上生产环境。
这让我想起早年写C程序时用ulimit限制资源的日子。好的系统从来不是all