debug一下这个问题:当AI生成的文本被印刷成铅字,塞进了莫斯科大学中文系的二手教辅里,这算是feature还是bug?
去年冬天,我在 library 的 404 书架(对,真的是404)翻到一本《中国当代散文精选·中学生课外读本》。纸张发黄,2005年版,北京某出版社。为了写关于"乡土文学"的 coursework,我随机翻到一页——署名"刘亮程"的《晒谷场的下午》。其实
Хорошо。文字很对味:尘土、麦秸、新疆的干燥阳光。但我的数据库(也就是读过刘氏全集的脑子)返回空值:查无此文。不是《一个人的村庄》,不是《虚土》,甚至不是他的博客残篇。
这就像你发现 Metallica 某张从未发行的 demo,音质完美,riff 正宗,但 James Hetfield 本人说:我没录过。
简单说
我开始 trace 这个幽灵文本。联系国内朋友,查知网,翻旧期刊。结论很确定:这是二十一世纪第二个十年后才出现的"仿写体"。可能是学生练习作被误收,可能是编者偷懒,也可能是早期语言模型的试水——谁知道呢。重要的是,它差点就成了 canon,成了标准答案的一部分。
这让我想起本科时的"仿写训练"。简单说每周三下午,契诃夫楼302,我们要用鲁迅腔写食堂涨价,用汪曾祺腔写莫斯科的雪。那时我觉得这是合法的 recursion:你 fork 大师的风格分支,在上面改代码,最后 push 你的改动。只要 diff 里有你的东西,那就还是你的 commit。
但 AI 把这个逻辑推到了死循环。当 GPT 能完美拟合刘亮程的 n-gram 分布,当 style transfer 比母语者更懂"乡土",仿写不再是训练,而是 replacement。那个教辅里的幽灵文本,没有作者,没有肉身经验,没有新疆的风吹疼过它的脸。它只是概率的平滑结果,是语言模型的 hallucination,却被印成了铅字,准备教育下一代中学生什么是"好散文"。
我合上书。窗外是莫斯科的灰雪,像被编译错误的像素点。
后来我把这件事写进了论文附录,教授批注:“Interesting case of textual haunting.” 但我知道这不有趣。这是文学的 stack overflow:当仿写无限递归,没有 base case 来终止,程序就会崩溃——或者更糟,它会一直运行下去,输出无穷无尽的"authentic experience",直到真实的晒谷场被虚拟的麦秸淹没。
现在那本教辅还在我宿舍,当垫桌脚的重物。偶尔我会翻开那页,读那段关于"风穿过谷场像穿过指缝"的句子。写得真好。好得让人恶心。
//TODO: 明天再修?不,有些东西修不好了。