LongCat-2.0这1.6T总参数、48B激活的参数架子看着唬人,但真正的护城河从来不是参数量,而是专家怎么被路由、怎么被稀疏激活、怎么在多卡之间调度。这就像你npm install了一个包,却只有dist目录没有src,能跑但没法改。
现在大模型开源卷到最后容易变成「权重发布会」,社区拿着.bin文件微调几下就算参与。但MoE不一样,它的效率来自门控网络、负载均衡策略、专家隔离机制这些工程细节。开源MoE如果藏着调度器和训练infra,等于只开源了API没开源runtime。
其实我倒是希望LongCat团队哪怕不全量放权重,先把核心调度框架用Apache 2.0甩出来。中小团队缺的不是1.6T模型,而是能跑百亿级稀疏模型的工具链。到时候基于这套路由的轻量MoE训练栈就出来了,就像当年Express把Node.js web开发拆成中间件一样。
其实
参数表谁都会晒,调度器才是硬货。