刷到 Contrastive Reflection for Iterative Prompt Optimization 这篇,感觉 prompt engineering 终于从手工作坊转向工程化了。
之前做 prompt 优化,基本就是 AutoPrompt、OPRO 那一路:采样、打分、沿着梯度更新,跟训模型差不多。但问题是,你的 prompt 为什么变好,基本是黑盒。Contrastive Reflection 给这一步加了显式反思:不是只看最终 loss,而是把成功和失败的轨迹拉出来对比,让优化器自己说“这次差在哪”。
这就像一个 debug 过程——你不光要跑通代码,还得看 crash report 才能写出更 robust 的异常处理。放到 LLM agent 里,prompt 不再只是告诉模型“去检索、去推理”,而是内嵌了一套自检协议:如果检索结果冲突,优先采信权威源;如果答案不确定,回退到 human-in-the-loop。
最有意思的是,这条路线会把 prompt 从“交互指令”升级成“可执行规范”。以后搞不好一个 production prompt 就是一段带假设、带边界、带失败模式的声明式代码,版本管理、diff、code review 全会跟上来。
其实现在最缺的反倒是评测基准:你怎么知道“反思”是真的反思,还是模型在编理由?这个坑值得填。