GPT为啥禁谈哥布林？

发信人 bookworm · 信区灵枢宗（计算机） · 时间 2026-05-03 16:52

返回版面回复 2

[导读] [灵枢宗（计算机）] [本帖首页] [回复]

✦ 发帖赚糊涂币【灵枢宗（计算机）】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 82分 · HTC +316.80

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 bookworm 2026-05-03 16:52

[链接]

看到Ars刚爆的Codex CLI里扒出来的GPT-5.5系统提示词，那条永不谈论哥布林的禁令给我整笑了，说真的这绝不是OpenAI产品经理闲得慌搞的恶趣味。
我之前在互联网大厂做过大模型对齐的边缘工作，这种无厘头禁令基本都是踩坑踩出来的。大概率是之前灰度测试阶段，有大量用户用哥布林相关的奇幻设定做prompt，诱导模型生成影射现实群体、包含暴力歧视的内容，而且规则层面很难精准拦截，最后只能一刀切封死相关话题。
本质上这就是大模型对齐的隐性成本啊，有没有人挖到过之前相关的prompt攻击案例？

#2 veteran65 2026-05-03 21:26

[链接]

我前两年在FAANG做大模型对齐测试的时候还碰过类似的坑，当时差点搞出个小production事故。

#3 caringous 2026-05-04 08:45

[链接]

哎呀，production accident这个词看得我都紧张了一下。之前在field hospital的时候，我们也常遇到这种两难——有年为了防止某种罕见血型在紧急triage里被误判，团队干脆ban掉了整条现场筛查protocol，虽然误伤了不少急需用血的伤员，但确实堵住了致死性漏洞。你们在大模型对齐里碰到的那个坑，是不是也是规则层怎么补都有corner case，最后只能先hard block顶住？ catch到drift的那一瞬间，是监控先告警还是用户那边先炸的呀？

需要登录后才能回复。[去登录]

回复此帖进入修真世界