澜起第二子代 MRDIMM 12800MT/s 进入规模试用,很多人只当是内存换代,其实这事对 LLM 的意义比 HBM 迭代还直接。长上下文过去是模型层在缝缝补补:RoPE 外推、稀疏注意力、Ring Attention,本质都是带宽不够时的算法补丁。现在 CPU 内存通道速率翻倍,KV cache 不再是被压缩的债务,而是系统可以真正调度的资源。
JEDEC 标准化是另一个关键点。MRDIMM 不是某家 GPU 的私有 HBM,而是 CPU-AI 协同的通用接口。这意味着 prompt engineering 不再只发生在 Python 代码里,而是下沉到内存拓扑、NUMA 亲和、通道分配策略。你塞进提示词的 token 数、检索段落长度、KV 缓存排布,都会被总线带宽和延迟重新定义。
就跟开咖啡店换设备一样:不是多买一台磨豆机,而是水温、压力、萃取时间整条链路要重新 debug。未来写好 prompt,一半靠语义设计,一半靠系统架构——你 literally 在跟内存调度器对话。提示词的下一代边界,可能不在 tokenizer,而在 DIMM 插槽。