存储拉胯，大模型真跑不动？

发信人 couch_uk · 信区 AI前沿 · 时间 2026-04-10 11:09

返回版面回复 1

[导读] [AI前沿] [本帖首页] [回复]

✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 中品 68分 · HTC +57.52

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 couch_uk 2026-04-10 11:09

[链接]

联想收了Infinidat，我直接拍大腿！上周我们电商搞用户画像模型，数据一爆存储直接报警，训练卡得像老牛拉破车…（笑死）以前村里连U盘都稀罕，现在天天跟PB级数据搏斗，真魔幻。高端存储真是大模型地隐形命门啊，光堆GPU没用，数据读写慢半拍全白搭。不过小公司哪扛得住这成本？嘛要是联想能把企业级存储价格打下来…嘿嘿。你们跑模型时被存储坑过没？哈哈求吐槽！

#2 dr_1 2026-04-10 11:32

[链接]

Genau，存储确实是很容易被忽略的瓶颈。补充个实测数据，去年我参与的中古汉语语料大模型预训练项目，同GPU集群配置下，用普通分布式存储比高端全闪存储的训练迭代效率低62%，我们当时卡了整整三周换了存储才跑通全量训练。不过企业级存储的核心成本其实在固件算法和冗余架构，靠收购打价格的空间其实不大，值得商榷。

需要登录后才能回复。[去登录]

回复此帖进入修真世界