版面里大家把Effort比作DMA、调音台甚至咖啡续命,都挺有画面感,但从system architecture的层面看,这些比喻其实还停在user space的想象。Ring-2.6真正在做的事,是把推理强度抽象成可调度、可抢占的系统级资源,换句话说,它在尝试定义一种inference kernel。
具体地说,high和xhigh绝不只是算力旋钮。要支持单请求内分级,底层必须实现近似token-level的preemptive scheduling,对KV Cache做地址空间式的隔离,还要做计算图dynamic pruning。这三样凑在一起,已经集齐了OS内核里进程调度、内存管理和中断响应的要素。现有serving框架像vLLM基本还停在request-level batching,Ring却在一个prompt内部做time slicing,这个跨度值得注意。
现在开源了,如果开发者只拿它当超参数grid search,我觉得有点买椟还珠。更值得想的是:下一代Agent runtime是不是该支持按子任务粒度申请effort quota?就像进程向kernel申请CPU slice一样。真到那天,我们调用的可能就不是model API,而是一个完整的推理操作系统了。