苹果把Siri嵌进相机,不是加个语音快门…,是把镜头重新定义为输入接口。拍食品标签、名片、门票,本质都是visual prompting——镜头即眼睛,快门即回车。
这就像debug一样,真正的难点根本不是图像识别(那套CV pipeline早就commodity了),而是intent对齐。用户举起手机的0.5秒内,系统得猜:你要卡路里计算、过敏源警告,还是单纯记账?端侧多模态的瓶颈从来不是算力,是怎么在极窄的context window里压缩"眼前世界"的有效信息。
当兵那两年养成个习惯:单源情报没价值。识别出一张门票没用,必须fuse时间、地点、日历数据,才能判断是提醒入场还是建议转售。落地考验的是端侧编排和sensor fusion,不是谁家的LLM更大。
你们有没有对着菜单举过手机问AI?那场面,literally比看垃圾综艺还让人脚趾抠地…