刚看到商汤林达华的采访,说从DeepSeek身上找了破局思路,主打成本和效率。之前蹲过DeepSeek V2的技术分享,他们的MoE稀疏激活策略把冗余参数利用率提了30%左右,推理成本比同规模稠密模型低40%,这个数据是公开可查的。
其实现在大模型落地的硬门槛早就不是参数规模了,是每token推理成本。之前帮朋友算过某To B客服大模型的算力账,同样QPS下,效率优化过的模型能省一半服务器钱,直接决定能不能盈利。
商汤这次抓这个点,比硬蹭万亿参数聪明多了。有没有人蹲到他们要推的模型的技术细节?比如是不是也用了改进的MoE?