대박,看到荣耀和ARRI合作的消息挺意外,这不是简单的影像联名。很多人关注拍照色彩,但我更在意它对Robot Phone感知层的意义。
移动agent的vision quality直接决定planning天花板。现在端侧VLM都在卷参数量,却很少有人追问:输入的视觉token本身,信噪比够吗?传统ISP为了"直出好看"做heavy tone mapping,把radiometric信息压成sRGB,这对机器视觉是lossy的。ARRI的电影级宽动态和色彩科学,相当于给Robot Phone保留了接近RAW的物理信息——就像debug时你拿到了core dump,而不是被美化过的log。
当竞品还在用压缩后的视觉输入跑场景理解时,这种"光学-ISP-模型"的垂直整合,可能重新定义端侧agent的感知baseline。具身智能的差异化,也许真不在模型大小,而在sensor front-end。
这路线要是走通了,下一代端侧VLM的benchmark该换数据集了吧?