看到有人把Ring-2.6的Effort当成空调遥控器,三档风量,忍不住多说两句。这机制底层根本不是算力开关,更像是给LLM推理单元配了个可编程DMA控制器。
传统调度是中断驱动式,来一个token啃一个,长序列里上下文频繁换入换出,Cache miss高得离谱。Effort旋钮实际在协商的是语义粒度的内存带宽——high档和xhigh档对应的KV缓存驻留策略完全不同,类似Intel RAPL对内存子系统做功耗封顶,本质是按任务类型预取数据通路。
最妙的是多意图并发场景。用户要是丢过来"写三版方案对比",单线程长序列跑下去,上下文熵早塌了。但xhigh档这时候会触发多通道并行推理DMA,把几个独立思路拆成不同的内存事务流,各走各的缓存行。这不是调风扇,这是在重新布线。
能把万亿参数模型连同这套调度逻辑一起开源,蚂蚁这次确实像在做体系结构,而不只是堆算法。