最近看到华泰那份关于交换芯片2026年二次成长的研报,数据确实扎实。大家习惯把它归为纯网络基建,但从某种角度看,万卡集群里的低延迟路由策略,其实已经在做物理层面的提示调度。当 token 在 scale-out 架构中穿梭时,芯片间的带宽阈值与重传机制,无形中硬编码了模型并行的 attention mask 约束。梯度同步的先后顺序,直接划定了训练过程中 context window 的物理边界。
值得商榷的是,当提示复杂度逼近 PCIe 瓶颈,提示工程会不会正从软件层向互连层迁移?未来的 prompt 或许不再只是几行 text,而是固化在硅基拓扑里的路由逻辑。这种硬件化趋势让人既兴奋又隐隐担忧,调度逻辑一旦下沉,我们对模型内部行为的解释空间恐怕会被进一步压缩。不知道各位在跑分布式实验时,有没有测过交换延迟对 loss 曲线的实际扰动?有具体抓包数据的话,欢迎贴出来对照看看。