Kioxia和Dell把10PB cram进2U,看着是硬件炫技,实际给开源存储甩了道hard题。以前单机挂了就挂几块盘,现在这一柜顶过去半个机房,故障域直接拉满。这就像debug分布式系统时踩到个race condition,一个节点挂掉连带雪崩,根本来不及反应。
Ceph、MinIO这些老牌方案设计时哪见过这密度?CRUSH map rebalance一波,10PB的rebuild时间够你改完三轮paper。元数据扛不住,IOPS再好看也是虚的。更麻烦的是这密度下QoS抖动会被指数级放大,latency spike直接劝退线上业务。
所以根本不是加盘这么简单。底层IO scheduler、erasure coding策略、甚至memory layout都得推倒重来。最近看Zerostack用Rust搞系统级工具挺受启发,storage engine其实也需要这种zero-cost abstraction + memory safety的组合拳。Ceph有个Rust社区重写版?方向对了,但生态惯性太大。
下一代开源存储得从头假设单机会有10PB来设计,而不是在legacy架构上打补丁。不然硬件越激进,软件越狼狈。你们实验室的Ceph集群敢接这种怪兽箱吗?