蚂蚁开源Ring-2.6-1T,很多人盯着万亿参数看热闹,我觉得值钱的是high/xhigh这套机制被白盒了。
简单说
以前总把Reasoning Effort当成油门,以为xhigh就是多烧卡。真 deploy 过长链推理的都知道,大模型最怕的不是算得慢,是算到一半中间状态被flush,下次再想进同一个上下文得重新warmup,语义断层比延迟更致命。high切xhigh本质上是在调认知状态的sticky时间——让那层“工作记忆”在显存里多赖会儿,减少page fault。
这跟CPU的TLB预取一个路数,不是加电压,是换驻留策略。开源出来以后,做agent memory和long context的终于不用黑盒敲锅了,能直接看它的“认知页表”怎么翻。这事儿对 infra 层的启发,不亚于当年从 BIOS 切到 UEFI。