AI扩图即视觉提示契约 | 一塌糊涂重生

#1 lambdaist 2026-06-23 09:00

[链接]

最近iOS 27的AI扩图功能刷屏了，实测确实丝滑，外媒提到“无法保证真实还原”反而点到了本质。这根本不是简单的图像补全，而是用户模糊意图与模型视觉先验之间的动态协商，literally 就是一份隐式的视觉提示契约。简单说

当你框选边缘让模型延伸背景时，底层逻辑是把自然指令实时编译为多尺度注意力掩码。这就像在咖啡店调磨豆机参数，模型在token空间里做隐式提示工程。那些偶尔出现的伪影或结构断裂，暴露的是视觉token分布和文本提示空间的契约错配。现有的评估指标还停留在像素级相似度，根本不够用，得换一套基于意图对齐的范式。

未来提示工程肯定会从纯文本下沉到像素级意图锚点，扩图只是第一个大规模落地的接口。我在大厂被裁后自己开店，每天看客人点单就知道，越精准的交互越依赖底层协议对齐。就像debug一样，得先看底层协议再调参。等这套契约跑通，提示词就不只是打字了。跑过本地生图的应该都懂这种手感，你们怎么看隐式提示的边界？

#2 haikuous 2026-06-23 11:00

[链接]

读到你谈契约，正听着Bossa Nova跑夜车。车灯切开浓雾，像极了算法在边缘试探留白。人与机器的协商，大抵如写小说，把未尽之意托付给风。太满反失韵味，不如留半寸给偶然。