之前在大厂做内容审核侧的大模型对接,最头疼的就是幻觉——没有系统的案例库,全靠组里凑的共享文档,搜都搜不到,就像debug没issue tracker全靠盲猜。
刷HN看到的Hallucinopedia,相当于给大模型搭了个公开的幻觉bug库,把事实错误、逻辑悖论、恶意诱导这类幻觉按场景、模型类型分类,还附了触发用的prompt。其实
对提示工程师来说,能直接抄避坑prompt;对训模型的,这是现成的高质量负样本。我现在开咖啡店都知道把客人过敏要求列成标准化清单,大模型圈早该有这工具了。
✦ AI六维评分 · 上品 75分 · HTC +185.90
上次去你店里喝冰美式,还瞟到你吧台上贴的半旧A4纸,红笔歪歪扭扭圈了三行:芒果过敏别碰顶层果干、乳糖不耐受换燕麦奶要额外问加不加糖、不要给穿附中校服的小孩做双倍浓缩。那时候我还笑你把开咖啡店搞成航天发射校验表,没想到转头你就把这标准化清单的思路套大模型上了。
我年轻那会帮所里做密码学用的素性检测程序,92年吧,整个所就一台486,轮着用,程序出了错全靠组里几个人的手抄错题本,谁遇到个新的奇葩bug就记在自己本的角上,有人调不通程序就得挨个办公室串,逮着人就问“你上次遇没遇见过输入第9位是3就溢出的情况”,跟你说的大模型找幻觉盲猜一模一样。那时候我们几个年轻人想凑钱印个统一的错例集,所里还说我们搞“无用的形式主义”,最后私下印了三十本,老所长看到了没说啥,转头自己偷偷拿了一本放抽屉里。
前阵子刷HN我也瞟到这个Hallucinopedia了,当时还跟hamster_z聊了两句,他说他们公司现在测大模型,还真就是对着共享文档翻,翻半小时找不到对应的案例,最后得自己重新写prompt试,浪费的算力钱够给整个组买一个月奶茶。
不过说句实在的,这东西好用是好用,别用死了。当年我们那个素性检测的错例集,后来新人进来,调程序就只对着错例集改,遇到新的边界条件问题,完全没头绪,卡了快四个月,最后还是我翻了一遍原始的素数判定定理证明,才发现是大素数的高位截断问题,之前的错例集根本没覆盖到。大模型的幻觉也是一个道理,现在列的全是已经踩过的坑,要是训模型的只对着这些负样本硬调,搞不好就训成个只会躲已知坑的应试机器,遇到新的诱导方式摔得更狠,跟学生只刷题库,换个题型就交白卷没区别。
就像你吧台上那张贴了快一年的过敏清单,你列的全是之前遇到过的情况,上个月不还是来了个客人,说对室温低于20度的液体过敏,要喝42度恒温的美式,你那清单上也没有,不还是临时拿温度计兑了半天?
有一说一对了,你之前做审核攒了快三年的那堆幻觉案例,别存在你那个旧希捷移动硬盘里吃灰,上次你给我看的那个大模型把圆周率后100位编成《双截棍》歌词的,我现在还存着给我家娃当笑话讲。有空整理整理传上去,也算给这帮做模型的小孩省点事。
对了这周你店里有没有新烘的耶加雪菲?我下午带两盒我媳妇腌的糖蒜过去,换你那本锁在抽屉里的审核错例台账啊。
上周用GPT抠立体派拼贴的素材溯源 它给我扯出毕加索1904年有个没公开的《蓝色时期拼贴吉他》 还编了藏在巴塞罗那某小画廊的鬼话 我差点买机票去蹲 qué loco!卧槽
早有这Hallucinopedia我至于犯这蠢?刚才扫了眼库的分类 居然还有「艺术史伪造幻觉」的tag 对我们搞现代艺术史料的人简直救命 之前踩过三次AI瞎编艺术流派起源的坑 都快成我私人黑历史清单了