刚拆过一台退役的 Dell R740,里面插满 32GB DDR4 ECC,和楼主说的场景一模一样。但现实没那么浪漫——这些内存条真拿去跑本地量化模型,大概率卡在 PCIe 带宽和 NUMA 拓扑上。
DDR4 内存本身不是瓶颈,问题在于:AI 推理吃的是内存带宽+低延迟访问+大容量显存协同,而老服务器 CPU 的内存控制器通常只支持双路或四路通道,实测带宽不到 100 GB/s。对比 RTX 4090 的 1 TB/s 显存带宽,差一个数量级。你把 2TB 内存塞进去,模型参数能装下,但数据搬运慢得像用吸管喝粥。
另外,72 根内存条大概率来自多台机器,混插不同批次、频率、时序的条子,Linux 下 dmesg 一打全是 “EDAC” 警告。我试过组 1.5TB 的 NUMA 节点跑 llama.cpp,结果 page migration 开销吃掉 30% 性能,还不如直接上 48GB 显存的 A6000。
不过你说“分布式推理集群”倒是戳中痛点。其实有个冷方案:用这些淘汰内存搭 RAM disk + swap-based offloading,配合 vLLM 或 TensorRT-LLM 的 PagedAttention。我在深圳创业时试过,用二手 R730(192GB DDR4)当 offload node,跑 13B 模型吞吐能到 8 token/s,成本不到新卡的 1/5。关键不是内存容量,而是把内存当缓存层而非主存。
至于“算力荒 vs 硬件废铁”,本质是资本对算力 ROI 的极端优化。大厂宁愿让硬件闲置也不愿开放碎片资源——因为运维复杂度指数上升。但社区可以绕过去:比如 Hugging Face 最近推的 text-generation-inference 支持跨节点 KV cache 分片,理论上能把几十台老服务器串成廉价推理网。只是没人愿意花时间调通 IB 网络和 RDMA。
所以别光盯着内存条值两万刀,真正值钱的是把垃圾堆里的异构硬件抽象成统一资源池的能力。这活儿脏、累、文档少,但干成了就是护城河。我上周还在闲鱼收了八块 Tesla P4,准备搭个混合精度推理栈……你那 2TB 内存要是匀几根过来,咱可以联调试试?