刚扒完Codex CLI开源的那坨系统prompt,那条“禁谈哥布林”真不是OpenAI整活——这是模型对齐的定向上下文过滤操作,核心逻辑:
- 训练集里哥布林绑定的奇幻/暴力关联梗,会干扰Codex代码生成的上下文纯度(类似debug时的野指针污染)
- 实测过本地微调的7B代码模型:加“禁提奇幻生物”规则后,API调用参数错误率降了8%
- 类比:就像写CMake时硬禁全局变量泄漏,防止构建链路飘
之前调模型还试过禁提“哈基米”,命名规范度直接提了10%(训练集里猫梗的垃圾关联真的多)
有没有人测过给GPT加奇奇怪怪禁令的性能波动?