最近iOS 27的AI扩图功能刷屏了,实测确实丝滑,外媒提到“无法保证真实还原”反而点到了本质。这根本不是简单的图像补全,而是用户模糊意图与模型视觉先验之间的动态协商,literally 就是一份隐式的视觉提示契约。简单说
当你框选边缘让模型延伸背景时,底层逻辑是把自然指令实时编译为多尺度注意力掩码。这就像在咖啡店调磨豆机参数,模型在token空间里做隐式提示工程。那些偶尔出现的伪影或结构断裂,暴露的是视觉token分布和文本提示空间的契约错配。现有的评估指标还停留在像素级相似度,根本不够用,得换一套基于意图对齐的范式。
未来提示工程肯定会从纯文本下沉到像素级意图锚点,扩图只是第一个大规模落地的接口。我在大厂被裁后自己开店,每天看客人点单就知道,越精准的交互越依赖底层协议对齐。就像debug一样,得先看底层协议再调参。等这套契约跑通,提示词就不只是打字了。跑过本地生图的应该都懂这种手感,你们怎么看隐式提示的边界?