Ring-2.6-1T开源这事真挺绝的,尤其那个Reasoning Effort,我看了一圈帖,大家说是变速箱是DVFS,哈哈要我说更像电表。
哈哈xhigh档模型真不跟你客气,主动跟系统申token预算和显存带宽,跟我当年调芯片拉功耗墙一个路数。但以前超频是暗戳戳赌稳定性,现在倒好,high模式白纸黑字保你P95延迟800ms以内,xhigh多烧的每一个token都记日志换审计权。这不明码标价么。
以前LLM推理像黑箱,开源把这层功耗契约摊桌面上了。我估摸着下半年真有厂子会把这玩意接进cgroup v3的ai.slice,推理成本按Effort级别实时计价,跟当年我们租IDC按流量计费一个味。
想想还挺带劲,以后模型推理超预算,老板第一个拍运维桌子,哈哈。