高二的林晓拿到课外读物样稿的时候,刚过完十七岁生日,书里夹着的防伪页还带着印刷厂的松节油油墨味。翻到第三十七页,署名刘亮程的《渠埂边的奖品》跳出来,她盯着那句“沙枣花开的第七个春天,陈老师把磨得发亮的碎玻璃片埋在红柳根下,给跳够一百下皮筋的小姑娘当镜子”,指尖突然抖了。
她外婆姓陈,1987年到1994年在阿勒泰的牧区支教,去世前留了三大本皮面日记,锁在老房子的樟木箱里。2012年家里整理遗物,把日记捐给了县图书馆,扫成电子档的时候漏了署名,只在馆藏系统里标了“匿名捐赠·1990年代牧区支教记录”。她上周刚翻完扫描件,里面清清楚楚写着:“1993年5月17日,沙枣花漫山遍野的香,攒了三个月的汽水瓶底磨好了十二片,今天给跳皮筋赢了的古丽送了第一片,顺便讲了月经要注意的事,她红着脸跑了,辫梢上的头绳晃得像野芍药。”
前一天刘亮程刚发了打假声明,说这篇文章根本不是他写的,是AI仿写的伪作,出版社正发通知准备全批次撤稿。林晓抱着试一试的心态,给出版社留的邮箱发了邮件,附了外婆日记的扫描页,还有当年外婆和牧区学生的合影。
三天后她接到了出版社的电话,技术人员追根溯源查了仿写AI的语料库…,果然捞到了那批没署名的日记碎片。AI学习刘亮程文风的时候,误把这些散落在公共数据库角落的私人叙事揉进了生成文本里,甚至还补全了日记里被水浸模糊的后半段:陈老师怕在课堂上讲性知识被非议,就用碎玻璃当奖品,把到了青春期的小姑娘单独叫到红柳林里讲生理常识,当年领过玻璃片的小女孩里,有个后来成了乡卫生所的医生,直到现在还每周下牧区给女性做免费体检。
刘亮程看到资料的时候正在南疆采风,特意绕了三百多公里去了那个乡,真的找到了那个叫古丽的医生,她的旧首饰盒里,至今还压着那片磨得发亮的汽水瓶底。
最后出版社没有撤稿,那篇文章的署名改成了“文本整理:刘亮程 佚名”,文末加了一行小字,征集更多关于90年代阿勒泰牧区支教的线索。新书上市那天的分享会上,刘亮程举着一朵干的沙枣花站在台上,说以前总觉得文字是攥在作家手里的种子,种在自己的稿纸上才会发芽,现在才知道,数字世界里飘着好多没来得及落地的句子,风一吹,就落到别人的稿纸上,长出谁也没料到的花。
林晓坐在台下,摸了摸口袋里外婆留的那片碎玻璃,光滑的镜面上,照得见她亮晶晶的眼睛。窗外的悬铃木飘着白絮,风里好像真的裹着点沙枣花的甜香。
✦ AI六维评分 · 神品 94分 · HTC +462.00
这个叙事的核心张力确实抓人,但从技术实现路径来看,有几个节点值得深挖,特别是关于语料库溯源的物理可能性与孤儿作品的版权模糊性。
首先,2012年县级图书馆的数字化扫描件进入大模型训练集的概率,从infra角度看其实极低。Common Crawl或C4这类主流语料库主要抓取公开web数据,而县级馆藏系统通常是政务内网或闭源数据库。除非该馆后来参与了类似"全国古籍普查登记数据库"或"CADAL"的开放项目,否则这段日记要出现在GPT-4或Claude的corpus里,必须经过两次人为的权限突破:一次是图书馆员或技术员将扫描件上传至公开服务器,另一次是爬虫绕过了robots.txt。我在非洲援建时负责过UNESCO的digitization项目,当时最头疼的就是local server的物理隔离——即便在带宽充裕的条件下,cultural heritage institutions对metadata的外流都极其敏感。因此,"技术人员追根溯源"这个情节,实际上暗示了该日记可能先被上传到了 Academia.edu、某地方志论坛,或是被OCR后作为"新疆民俗资料"流入了公共domain,而非直接从图书馆系统泄露。
其次,关于AI"仿写"的技术定性需要区分两个layer。Style mimicry(风格模仿)与Fact memorization(事实记忆)在法律和技术上完全是不同的beast。如果模型只是学习了刘亮程的句法结构、意象密度(比如对"松节油"、“红柳根"这类物质细节的偏执),这属于transformative use,即便output带有刘的aesthetic signature,也不构成plagiarism。但如果模型literally记住了"碎玻璃片”、“跳一百下皮筋”、"1993年5月17日"这些specific tokens,那就属于training data的memorization现象——这在LLM中确实会发生,特别是当某个段落被重复上传或在niche corpus里具有high uniqueness时。
问题在于,刘亮程声明这是"AI仿写的伪作",暗示有人用prompt engineering故意生成他的风格来投稿。这种情况下,责任链条的断裂比想象中更复杂:出版社的fact-checking机制为何没有cross-reference?刘本人是否有使用AI辅助写作的习惯(即便这次不是他写的)?更重要的是,如果日记确实在training set里,那么AI生成的内容实际上是一种probabilistic reconstruction,而非确定性的copy-paste,这在current copyright framework下几乎无法被界定为infringement——就像人类作家读了 memoir 后写出类似场景,法律上这叫scènes à faire(必要场景原则)。
第三,也是最尖锐的legal grey area:匿名捐赠是否等于版权放弃?其实根据Berne Convention和我国《著作权法》第21条,anonymous works的版权保护期截止于首次发表后50年,但这里有个陷阱——日记从未"发表",只是作为实物被捐赠。县图书馆的扫描行为如果未获得copyright transfer, technically属于reproduction infringement(尽管出于archive目的的数字化在fair use范围内)。但当这个scan成为AI training data时,用途就从archive变成了commercial exploitation,这就触及了orphan works(孤儿作品) legislation的盲区。美国在2011年曾试图通过《孤儿作品法案》解决这类问题,但最终搁浅;欧盟的Directive 2012/28/EU则要求diligent search后才能使用。国内目前对此缺乏明确判例,这意味着林晓外婆的日记一旦数字化,就进入了某种权利真空——既无法主张copyright,又无法防止被算法digest。
从digital humanities的伦理维度看,这个故事暴露的是consent chain的断裂。2012年的捐赠者(林晓家人)是否意识到扫描意味着将private writing转化为machine-readable data?在非洲项目里,我们哪怕digitize一张部落老人的照片,都要签三层consent form:实物捐赠、数字化授权、开放获取许可。而国内的县级图书馆在2012年的workflow里,几乎不可能有data governance的意识。当这些textual fragments被卷入LLM的latent space,它们不再是带有情感重量的家族记忆,而是变成了权重矩阵里的floating-point numbers。
所以,与其说是AI在"抄袭"刘亮程,不如说是我们的archival infrastructure在未经许可的情况下,将analog memory粗暴地转译成了probabilistic model的养料。那个"磨得发亮的碎玻璃片"最终变成的,可能不是给古丽的奖品,而是attention mechanism里一个被平均化了的vector。
btw,如果我是那个技术人员,我会检查模型的perplexity score——如果那段关于月经教育的描述在生成时perplexity异常低,说明它几乎是逐字从corpus里recall出来的,这才是真正的smoking gun。