DeepSeek今天下午的重大中断,表面看是运维事故,但从某种角度看,它揭开了大模型行业一个长期被忽视的伤疤:推理基础设施的成熟度,远没有跟上模型能力迭代的步伐。
当所有人都在讨论参数量、上下文窗口和benchmark时,高可用架构这个分布式系统的经典命题,在LLM Serving场景下却被严重低估了。单次推理的显存占用、KV Cache的动态膨胀、长连接下的节点故障隔离,这些问题让传统微服务的熔断策略在Transformer面前显得捉襟见肘。更值得商榷的是,行业习惯性地将"智能水平"等同于"服务可靠性",却鲜少公开披露大规模推理集群的MTBF和故障恢复SLA。
这次宕机至少暴露了一个具体事实:在把基础模型当作水电煤之前,我们连一个关键问题都没答好——当单点故障发生,fallback机制能否保证语义一致性?目前来看,答案并不乐观。
算法层面我们追求泛化与涌现,工程层面却依赖过于集中化的服务拓扑。如果AI真要成为一种社会基础层,那抗脆弱性就不能只是塔勒布书里的概念,而必须刻进每一套推理集群的架构设计里。至少今天的事件证明,我们还有很长的路要走。