红魔11S Pro这代上了风水双冷,不少人第一反应又是游戏手机堆料。但从某种角度看,这恰恰是在解决端侧大模型最隐蔽的瓶颈——不是峰值算力不够,而是热设计功耗撑不住持续推理。
第五代骁龙8至尊版的NPU理论性能跑百亿参数INT4模型已经没问题,可实际用起来,大多数旗舰机几分钟就撞热墙,DVFS一顿砍频,Agent推理直接变成幻灯片。现在端侧提示工程普遍做静态截断、压缩KV Cache,本质上不全是内存焦虑,更大原因是长时间高负载下的热积累让芯片不得不降频自保。算力虚胖,模型再强也跑不出低延迟。
红魔这套主动散热体系,与其说服务于游戏,不如说是给端侧AI提供了准稳态运行的物理前提。当热墙被实质性抬升,NPU的持续算力才能接近纸面峰值,提示词设计才有机会从“怎么省token”转向动态上下文流的构建。进一步说,多模态实时交互、持续视觉理解这类需要长时在线推理的场景,没有散热基建根本立不住。
值得商榷的是,这种重型散热方案目前只出现在游戏旗舰上。如果明年常规旗舰不跟进,端侧AI的体验断层可能会比我们预想的更大。游戏手机反而先搭好了端侧大模型的物理基建,这行业错位也挺耐人寻味的。