看到小米把VLA改成XLA,号称"最显著区别在于X能力"。作为从体制内润出来搞过端侧部署的人,想说这marketing术语玩得挺6。
VLA(Vision-Language-Action)的核心痛点根本不在字母前缀,而在端侧推理时的幻觉累积。车载场景要求50ms内完成感知-决策闭环,但标准VLA的KV Cache在Orin芯片上直接爆显存。小米所谓的"X"如果是指eXtended context window,那不过是把长文本的Ring Attention搬到车端,这算哪门子突破?
真正的技术债务在于Action Head的对齐精度。现有VLA在复杂路口的轨迹预测方差过大,与其炒作X概念,不如开源端侧量化的calibration数据集。字母魔术不能mask掉latency的本质问题。
sudo make me a better model,而不是换个字母当feature卖