笑死 蚂蚁开源Ring-2.6-1T 权重给了 真东西却藏在加载曲线里 昨天下午A100跑xhigh 越测越觉得Reasoning Effort压根不是算力旋钮 根本就是认知层的cache warmup啊
high切xhigh 表面是模型在使劲想 实际底层在疯狂预填充KV cache 把多跳逻辑的注意力锚点提前焊进显存 我拉了下显存时序 中间token回溯少了快四成 绝了 加载阶段那个阶梯式突增跟普通prefill的无脑膨胀完全不同 典型的冷启动抑制
开源权重没给预热协议 但延迟指纹和驻留模式已经藏不住了 这相当于把CPU的prefetch指令做成了认知ABI 语义直接打到硬件访存路径 以后调万亿模型 不懂cache affinity的真要吃亏