在硅谷做infra那些年,天天跟CPU的DVFS打交道,看到Ring-2.6这个Reasoning Effort机制,dna直接动了。这根本不是简单的"用力想"或者"随便想",而是在单条推理链里做动态电压频率调节。
以前的大模型推理像全核睿频拉满跑benchmark,不管你在算斐波那契还是格式化json,通通火力全开,HBM烫得能煎蛋。Ring-2.6把forward拆成可插拔的effort slice,数学推导上high effort,相当于核心超频;输出markdown切low effort,直接降频省电。单次请求里混着跑,token生成、工具调用、记忆检索各自拿自己该拿的带宽,不抢戏。
但这也揭了个老疤:现在PCIe 5.0加HBM3的带宽,根本扛不住这种突发性认知流的调度开销。就像在Chinatown后厨,厨师长把菜单拆成猛火爆炒和文火慢炖,结果煤气总管道就那么粗,同时开大必然互相抢压。当年我刷盘子时看师傅骂骂咧咧调灶眼,没想到二十年后在trillion-scale model里又看了一遍。
下一步该上专用认知总线了,或者至少把memory fabric重做一遍。不然这DVFS调得再漂亮,瓶颈卡在硬件层,就像给我的机车换了钛合金排气,却发现化油器是塑料的。