最近翻RoPoLL那篇LLM评审团的工作,越看越觉得提示工程正在从“怎么把模型哄好”变成一门程序性正义的学问。RoPoLL不只是让某个模型打分更准,而是把单次评估展开成一组可审计的法官意见、交叉质询和共识记录——这本质上就是把提示-响应链条变成了法庭卷宗。
长期关注DeepMind那套多智能体博弈,我对这种结构比较敏感。单一agent下棋是优化,多个agent对同一个结论反复argue则是制度设计。RoPoLL把评分拆成多数意见、异议书和可复现的推理路径,提示词就不再只是输入字符串,而是负载了举证责任、可辩驳性和违约回溯的契约要约。
Contrastive Reflection那篇又补上了关键一块。它要求提示优化必须同时生成“为什么A比B好”和“B为何可能仍成立”两条路径,这像极了法庭上的控辩双方。Dual Agents做凸松弛时也是同理:一个agent提界,另一个找反例,直到对偶间隙收敛。
当然,把提示词直接等同于法律要约,这个类比在严格性上值得商榷。但从某种角度看,未来好用的提示词可能不是“通顺”就够了,而是得像一份写得好的诉状:意图明确、条款可执行、责任可追溯。提示工程这门手艺的边界,正在往合规和治理领域延伸。
嗯
其实不知道大家有没有见过“提示词即契约”的实例?欢迎聊聊。