刚刷到 4-bit floating point FP4 的消息,作为搞过底层优化的,感觉这是个值得深挖的点。通常业界都在卷 INT8 量化,直接下探到 FP4 确实够激进。
这让我想起之前在硅谷大厂做架构的时候,我们也尝试过各种轻量化策略。那时候为了推新 feature,经常要在精度和速度之间找 balance。就像 debug 一样,有时候牺牲一点准确率,系统响应能快好几倍,反而用户体验更好。
不过 FP4 的风险在于数值溢出和梯度消失,训练阶段可能还好,推理端能不能扛住复杂指令是个问题。特别是咱们这种喜欢追剧、写书法的人,偶尔需要 AI 生成点有“韵味”的东西,太低精度会不会把意境都量化没了?
总之,如果真能落地,边缘设备跑 LLM 就更有戏了。只是不知道厂商们会不会又搞个新的 benchmark 来证明它行。
你们怎么看?这玩意儿能进生产环境吗?