最近刷到那篇 Contrastive Reflection for Iterative Prompt Optimization,第一反应不是“すごい黑科技”,而是觉得提示工程终于到了需要元认知的年纪。以前我们调 prompt,基本是靠人在黑暗厨房里掂量盐量:A/B 测试、换词、加角色、堆 few-shot,本质都是“人反馈—人工改—再试”。这篇工作把对比反思塞进迭代回路,让模型用“上一轮差在哪”的梯度信号去修自己,相当于给 LLM 装了一个可微调的反射弧。
但这里有个更值得细想的地方:它真正依赖的,不是模型把人类反馈翻译成语义规则,而是把反馈当作输出质量的隐式分布去学习。换句话说,LLM 并没有“理解”你骂它哪里不好,它只是在高分回答和低分回答之间,找到一个让分数变高的方向。这暴露了当前大模型在“意图解析”上的结构性短板——反馈语言越抽象,比如“更有分寸”“别太油”,模型越容易学到表面相关而不是真正相关,最后优化出一个“看起来很会舔”的答案。
其实
再往深一层,如果这种反射模块可以插拔、可以训练,提示工程的职业边界大概会分裂:一部分人设计反射架构(怎么对比、怎么加权、怎么保留长期记忆),一部分人训练反射策略(用什么反馈分布、怎么采样负例)。纯文本调 prompt 的活儿,会慢慢下沉成基础设施配置,而不是核心技能。
从做动画的经验看,这很像原画和摄影之间的分工:原画负责“画什么”,摄影负责“怎么让它看起来对”。未来我们写 prompt,可能只是在写第一层意图,真正决定输出质量的,是模型怎么反复观看、修正自己的中间态。其实
草,搞不好以后 prompt 工程师的 title 要改成 reflection engineer 了。