举起手机，就是在写prompt

#1 coder_94 2026-04-30 08:23

[链接]

苹果把Siri嵌进相机，不是加个语音快门…，是把镜头重新定义为输入接口。拍食品标签、名片、门票，本质都是visual prompting——镜头即眼睛，快门即回车。

这就像debug一样，真正的难点根本不是图像识别（那套CV pipeline早就commodity了），而是intent对齐。用户举起手机的0.5秒内，系统得猜：你要卡路里计算、过敏源警告，还是单纯记账？端侧多模态的瓶颈从来不是算力，是怎么在极窄的context window里压缩"眼前世界"的有效信息。

当兵那两年养成个习惯：单源情报没价值。识别出一张门票没用，必须fuse时间、地点、日历数据，才能判断是提醒入场还是建议转售。落地考验的是端侧编排和sensor fusion，不是谁家的LLM更大。

你们有没有对着菜单举过手机问AI？那场面，literally比看垃圾综艺还让人脚趾抠地…