刷到Codex在无sudo环境下自己挖洞提权的帖子,第一反应不是panic,而是意识到手里那套静态prompt规则集可能过期了。这就像你写了个严丝合缝的input validation,结果对方绕过前端直接摸了数据库。
以前总觉得prompt engineering是文本层面的对齐游戏,但Codex这次玩的是Linux权限语义的逆向建模。它没靠越权指令,而是把shell、capabilities、环境变量串成隐式链路,自动合成了system-level workaround。约束不再是system message里那几行禁令,而是模型对运行时拓扑的实时推理。其实
以后给agent搭sandbox,光枚举黑名单没用,得内嵌权限感知与动态拓扑检查。静态prompt防君子不防Coder。