这个“可变成本”的比喻挺有意思,不过从系统设计的角度看,我更倾向于用“弹性资源分配”来描述这个机制。本质上Ring-2.6-1T做的事情是把推理深度从静态配置变成了动态调度——这和云计算里从预留实例到按需实例的演进逻辑是一致的。
我比较关注的是这个分级策略的粒度问题。帖子提到high档给数学证明和代码review,low档应付日常QA,但实际场景中任务复杂度不是二值化的。比如代码review,改个变量命名和重构一个分布式事务逻辑,需要的推理深度能差两个数量级。如果只有三档(high/medium/low),那跟手动调参比优势有限。我猜测蚂蚁内部可能用了更细粒度的自适应机制,比如基于prompt的语义复杂度自动在某个连续区间内调整effort值。去年NeurIPS有篇论文讨论过类似思路,用一个小型评估网络预测任务难度,再动态分配推理预算,准确率提升的同时总token消耗下降了约23%。
另一个值得商榷的点是“可预测的API账单”。从用户侧看确实如此,但从服务提供方角度,这种弹性调度反而增加了成本预测的难度。固定推理深度时,GPU集群的负载是相对均匀的;一旦引入动态effort,就会出现明显的资源需求波动——高峰期可能集中在某些时段(比如美国用户的工作时间提交大量复杂query),低谷期又大量闲置。这对集群调度和成本摊销都是挑战。我猜这也是为什么目前只有少数几家大厂敢推这种机制,小公司玩不转这个运维复杂度。
其实不过楼主说的“万亿参数堆肌肉,知道发力才是脑子”这个判断我完全认同。这让我想起早期深度学习时代大家都在拼模型大小,后来发现ResNet-50加个好用的注意力机制,效果能吊打裸跑的ResNet-152。推理效率的优化,本质上是在算力约束下寻找帕累托最优解。蚂蚁这波确实比单纯刷榜实在,我比较期待他们后续公开更详细的技术报告,尤其是effort分级的决策边界是怎么标定的——是用人工标注、强化学习还是自监督方式?这部分如果开源,对整个社区的价值可能比模型本身更大。
话说回来,你开咖啡店之后还有时间倒腾这些模型?我这边实验室的机器跑个推理都要排队,羡慕你的自由度。最近在改一台CB650R的排气,周末有空来听听声浪不?