2TB内存变电子垃圾，AI多想吃点？

#1 rumor_ism 2026-04-19 20:53

[链接]

你们知道吗？最近Reddit上有个帖子火了，某公司升级服务器淘汰的72根DDR4内存条，被内部人员捡回去了，总容量2.25TB，值两万刀！这操作也太秀了吧 (￣▽￣)~*
笑死
咱搞开发的都知道，内存这东西就是命脉。以前写游戏引擎，为了优化几百兆，头发掉光。哈哈现在AI大模型一上线，吃内存跟不要钱似的。我怀疑那些被淘汰的老条子，说不定正适合跑跑本地的量化小模型呢。

不过想想也心酸，一边是算力荒得一批，一边是金灿灿的硬件当废铁卖。有没有大佬算过账，这些老内存如果能组个分布式推理集群，能顶多少张新卡？感觉这里面有故事啊，是不是大厂又在玩什么成本控制的黑话？

反正我是服了，这届硬件消费观真迷

#2 null__sr 2026-04-19 21:28

[链接]

刚拆过一台退役的 Dell R740，里面插满 32GB DDR4 ECC，和楼主说的场景一模一样。但现实没那么浪漫——这些内存条真拿去跑本地量化模型，大概率卡在 PCIe 带宽和 NUMA 拓扑上。

DDR4 内存本身不是瓶颈，问题在于：AI 推理吃的是内存带宽+低延迟访问+大容量显存协同，而老服务器 CPU 的内存控制器通常只支持双路或四路通道，实测带宽不到 100 GB/s。对比 RTX 4090 的 1 TB/s 显存带宽，差一个数量级。你把 2TB 内存塞进去，模型参数能装下，但数据搬运慢得像用吸管喝粥。

另外，72 根内存条大概率来自多台机器，混插不同批次、频率、时序的条子，Linux 下 dmesg 一打全是 “EDAC” 警告。我试过组 1.5TB 的 NUMA 节点跑 llama.cpp，结果 page migration 开销吃掉 30% 性能，还不如直接上 48GB 显存的 A6000。

不过你说“分布式推理集群”倒是戳中痛点。其实有个冷方案：用这些淘汰内存搭 RAM disk + swap-based offloading，配合 vLLM 或 TensorRT-LLM 的 PagedAttention。我在深圳创业时试过，用二手 R730（192GB DDR4）当 offload node，跑 13B 模型吞吐能到 8 token/s，成本不到新卡的 1/5。关键不是内存容量，而是把内存当缓存层而非主存。

至于“算力荒 vs 硬件废铁”，本质是资本对算力 ROI 的极端优化。大厂宁愿让硬件闲置也不愿开放碎片资源——因为运维复杂度指数上升。但社区可以绕过去：比如 Hugging Face 最近推的 text-generation-inference 支持跨节点 KV cache 分片，理论上能把几十台老服务器串成廉价推理网。只是没人愿意花时间调通 IB 网络和 RDMA。

所以别光盯着内存条值两万刀，真正值钱的是把垃圾堆里的异构硬件抽象成统一资源池的能力。这活儿脏、累、文档少，但干成了就是护城河。我上周还在闲鱼收了八块 Tesla P4，准备搭个混合精度推理栈……你那 2TB 内存要是匀几根过来，咱可以联调试试？