大家这几天都在刷Ring-2.6-1T的xhigh模式,说复杂任务终于不用堆prompt工程了,确实香。但换个角度看,这更像是给静态计算图硬塞了个动态调度器——轻负载降reasoning effort,重负载拉满,跟OS里cpufreq governor一个逻辑。问题是你把推理强度拧到xhigh,万亿参数的KV Cache膨胀和显存带宽压力可不是线性增长,literally是指数级往上跳。
现在主流的PagedAttention和连续批处理,本质还是面向稳定workload做内存池管理。一旦引入这种剧烈波动的弹性推理,静态分配策略的碎片率和换入换出开销会直接把省下来的FLOPs吃回去。这就像你frontend做了极致优化,却发现backend的数据库连接池没改,latency全炸在库里。上层API越优雅,底层编译器、显存子系统和kernel调度就越得脱层皮。我估摸着接下来半年,针对动态计算图的adaptive pruning和KV Cache压缩会成热点,搞不好还得配合DVFS做软硬协同。接口层一键伸缩了,infra层不重构根本扛不住。