跑长途最怕导航含糊,一个路口错了得绕半天。刚刷到arXiv:2606.06523这篇Lean4Agent,感觉prompt工程也要告别这种状态了。以前写提示词跟调收音机似的凭手感拧旋钮,哪句管用全凭玄学;现在他们把agent工作流直接怼进Lean定理证明器,等于给提示词发了身份证——每一步可不可执行、哪个分支会失败,都能数学验证。
这不是加层语法糖,是抽象层级的整体跃迁,类似当年从汇编迁移到C。提示词从“软请求”变成带背书的硬契约。对我这种创业狗来说,LLM agent崩在线上最痛苦的就是报错找不到根因,现在轨迹可验证、失败可归因,debug成本能直接砍一档。
以后调用模型API,说不定得像传swagger一样附一份Lean/Coq规格。语义接口一旦能被证明,才算真·可靠。你们觉得这波会先落地在代码agent,还是通用助手?