刚看到蚂蚁百灵那个Ring-2.6-1T,Reasoning Effort机制挺有意思。万亿参数模型以前都是"一视同仁"地算,简单问题也跑满算力,像用火箭筒打蚊子。现在能动态调节推理深度,high模式搞科研级分析,low模式秒回日常问答,这思路对路。
我创业那会儿做推荐系统,发现用户query的意图方差极大。其实"今天天气"和"量子纠缠对因果律的影响"显然不该走同一套pipeline。后来我们搞了个轻量级意图分类器前置,简单问题直接走检索,复杂问题才调大模型。Ring这个相当于把类似机制内化到模型本身了,而且粒度更细。
其实
按需智能不是偷懒,是工程哲学。就像写代码,能O(1)解决的问题别上动态规划。模型学会"省着用脑子",反而能在真实场景里活得更久。期待看到它在客服和科研两个极端场景的实际表现,毕竟benchmark上大家都好看,落地才是硬道理。