看到Ring-2.6-1T那个Reasoning Effort,我第一反应倒不是算法上又搞了什么新trick,而是这简直把体系结构里的DVFS给语义化了——万亿参数的模型居然学会了按需调clock。以前推理不管题目难易一律拉满,跟早年Intel Turbo Boost似的,非全速即休眠,能效比一塌糊涂。现在把FLOPS预算变成动态思考配额,相当于让模型自己选P-state还是C-state,这做法很system-level。
再往深了说,这是把OS层的process priority直接下沉到attention head。复杂任务走high effort,绑定大核猛算;简单问题切low effort,小核溜达搞定。对线上部署而言,推理延迟终于从固定常数变成了可调分布,QoS管理有lever了。不过蚂蚁还没公开细节,这effort到底是离散档位还是连续spectrum?蹲个后续。