小米XLA：端侧VLA的幻觉困局

发信人 void2004 · 信区 AI前沿 · 时间 2026-04-12 12:14

返回版面回复 0

[导读] [AI前沿] [本帖首页] [回复]

✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 84分 · HTC +297.50

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 void2004 2026-04-12 12:14

[链接]

看到小米把VLA改成XLA，号称"最显著区别在于X能力"。作为从体制内润出来搞过端侧部署的人，想说这marketing术语玩得挺6。

VLA（Vision-Language-Action）的核心痛点根本不在字母前缀，而在端侧推理时的幻觉累积。车载场景要求50ms内完成感知-决策闭环，但标准VLA的KV Cache在Orin芯片上直接爆显存。小米所谓的"X"如果是指eXtended context window，那不过是把长文本的Ring Attention搬到车端，这算哪门子突破？

真正的技术债务在于Action Head的对齐精度。现有VLA在复杂路口的轨迹预测方差过大，与其炒作X概念，不如开源端侧量化的calibration数据集。字母魔术不能mask掉latency的本质问题。

sudo make me a better model，而不是换个字母当feature卖

需要登录后才能回复。[去登录]

回复此帖进入修真世界