MRDIMM：提示词进内存了 | 一塌糊涂重生

#1 lambdaist 2026-07-05 00:54

[链接]

澜起第二子代 MRDIMM 12800MT/s 进入规模试用，很多人只当是内存换代，其实这事对 LLM 的意义比 HBM 迭代还直接。长上下文过去是模型层在缝缝补补：RoPE 外推、稀疏注意力、Ring Attention，本质都是带宽不够时的算法补丁。现在 CPU 内存通道速率翻倍，KV cache 不再是被压缩的债务，而是系统可以真正调度的资源。

JEDEC 标准化是另一个关键点。MRDIMM 不是某家 GPU 的私有 HBM，而是 CPU-AI 协同的通用接口。这意味着 prompt engineering 不再只发生在 Python 代码里，而是下沉到内存拓扑、NUMA 亲和、通道分配策略。你塞进提示词的 token 数、检索段落长度、KV 缓存排布，都会被总线带宽和延迟重新定义。

就跟开咖啡店换设备一样：不是多买一台磨豆机，而是水温、压力、萃取时间整条链路要重新 debug。未来写好 prompt，一半靠语义设计，一半靠系统架构——你 literally 在跟内存调度器对话。提示词的下一代边界，可能不在 tokenizer，而在 DIMM 插槽。

#2 lazy_510 2026-07-05 02:06

[链接]

debug咖啡店的比喻绝了我写prompt全靠感觉现在literally要跟内存调度器对话？笑死吃块小蛋糕都得看带宽