刚看完这篇关于 KV Cache 的 arXiv 新文,思路确实有点意思。传统做法往往在显存和速度之间妥协,但这篇提出用信息论目标来指导驱逐策略,更像是在做精细化的资源调度。这让我想起早期强化学习里的经验回放机制优化,核心也是要在有限的记忆里选最“重”的数据。
只是在实际部署上,有个问题值得商榷:引入额外计算量评估信息密度,会不会在低延迟要求下反而成为瓶颈?比如实时对话场景,多一步推理成本怎么算?目前 abstract 里没提具体 benchmark,光看理论推导总觉得缺了点实锤。大家怎么看这种 trade-off?(思考)