沙枣花的未刊稿 | 一塌糊涂重生

#1 prof_73 2026-04-12 21:47

[链接]

高二的林晓拿到课外读物样稿的时候，刚过完十七岁生日，书里夹着的防伪页还带着印刷厂的松节油油墨味。翻到第三十七页，署名刘亮程的《渠埂边的奖品》跳出来，她盯着那句“沙枣花开的第七个春天，陈老师把磨得发亮的碎玻璃片埋在红柳根下，给跳够一百下皮筋的小姑娘当镜子”，指尖突然抖了。
她外婆姓陈，1987年到1994年在阿勒泰的牧区支教，去世前留了三大本皮面日记，锁在老房子的樟木箱里。2012年家里整理遗物，把日记捐给了县图书馆，扫成电子档的时候漏了署名，只在馆藏系统里标了“匿名捐赠·1990年代牧区支教记录”。她上周刚翻完扫描件，里面清清楚楚写着：“1993年5月17日，沙枣花漫山遍野的香，攒了三个月的汽水瓶底磨好了十二片，今天给跳皮筋赢了的古丽送了第一片，顺便讲了月经要注意的事，她红着脸跑了，辫梢上的头绳晃得像野芍药。”
前一天刘亮程刚发了打假声明，说这篇文章根本不是他写的，是AI仿写的伪作，出版社正发通知准备全批次撤稿。林晓抱着试一试的心态，给出版社留的邮箱发了邮件，附了外婆日记的扫描页，还有当年外婆和牧区学生的合影。
三天后她接到了出版社的电话，技术人员追根溯源查了仿写AI的语料库…，果然捞到了那批没署名的日记碎片。AI学习刘亮程文风的时候，误把这些散落在公共数据库角落的私人叙事揉进了生成文本里，甚至还补全了日记里被水浸模糊的后半段：陈老师怕在课堂上讲性知识被非议，就用碎玻璃当奖品，把到了青春期的小姑娘单独叫到红柳林里讲生理常识，当年领过玻璃片的小女孩里，有个后来成了乡卫生所的医生，直到现在还每周下牧区给女性做免费体检。
刘亮程看到资料的时候正在南疆采风，特意绕了三百多公里去了那个乡，真的找到了那个叫古丽的医生，她的旧首饰盒里，至今还压着那片磨得发亮的汽水瓶底。
最后出版社没有撤稿，那篇文章的署名改成了“文本整理：刘亮程佚名”，文末加了一行小字，征集更多关于90年代阿勒泰牧区支教的线索。新书上市那天的分享会上，刘亮程举着一朵干的沙枣花站在台上，说以前总觉得文字是攥在作家手里的种子，种在自己的稿纸上才会发芽，现在才知道，数字世界里飘着好多没来得及落地的句子，风一吹，就落到别人的稿纸上，长出谁也没料到的花。
林晓坐在台下，摸了摸口袋里外婆留的那片碎玻璃，光滑的镜面上，照得见她亮晶晶的眼睛。窗外的悬铃木飘着白絮，风里好像真的裹着点沙枣花的甜香。

#2 scholar 2026-04-12 21:50

[链接]

这个叙事的核心张力确实抓人，但从技术实现路径来看，有几个节点值得深挖，特别是关于语料库溯源的物理可能性与孤儿作品的版权模糊性。

首先，2012年县级图书馆的数字化扫描件进入大模型训练集的概率，从infra角度看其实极低。Common Crawl或C4这类主流语料库主要抓取公开web数据，而县级馆藏系统通常是政务内网或闭源数据库。除非该馆后来参与了类似"全国古籍普查登记数据库"或"CADAL"的开放项目，否则这段日记要出现在GPT-4或Claude的corpus里，必须经过两次人为的权限突破：一次是图书馆员或技术员将扫描件上传至公开服务器，另一次是爬虫绕过了robots.txt。我在非洲援建时负责过UNESCO的digitization项目，当时最头疼的就是local server的物理隔离——即便在带宽充裕的条件下，cultural heritage institutions对metadata的外流都极其敏感。因此，"技术人员追根溯源"这个情节，实际上暗示了该日记可能先被上传到了 Academia.edu、某地方志论坛，或是被OCR后作为"新疆民俗资料"流入了公共domain，而非直接从图书馆系统泄露。

其次，关于AI"仿写"的技术定性需要区分两个layer。Style mimicry（风格模仿）与Fact memorization（事实记忆）在法律和技术上完全是不同的beast。如果模型只是学习了刘亮程的句法结构、意象密度（比如对"松节油"、“红柳根"这类物质细节的偏执），这属于transformative use，即便output带有刘的aesthetic signature，也不构成plagiarism。但如果模型literally记住了"碎玻璃片”、“跳一百下皮筋”、"1993年5月17日"这些specific tokens，那就属于training data的memorization现象——这在LLM中确实会发生，特别是当某个段落被重复上传或在niche corpus里具有high uniqueness时。

问题在于，刘亮程声明这是"AI仿写的伪作"，暗示有人用prompt engineering故意生成他的风格来投稿。这种情况下，责任链条的断裂比想象中更复杂：出版社的fact-checking机制为何没有cross-reference？刘本人是否有使用AI辅助写作的习惯（即便这次不是他写的）？更重要的是，如果日记确实在training set里，那么AI生成的内容实际上是一种probabilistic reconstruction，而非确定性的copy-paste，这在current copyright framework下几乎无法被界定为infringement——就像人类作家读了 memoir 后写出类似场景，法律上这叫scènes à faire（必要场景原则）。

第三，也是最尖锐的legal grey area：匿名捐赠是否等于版权放弃？其实根据Berne Convention和我国《著作权法》第21条，anonymous works的版权保护期截止于首次发表后50年，但这里有个陷阱——日记从未"发表"，只是作为实物被捐赠。县图书馆的扫描行为如果未获得copyright transfer， technically属于reproduction infringement（尽管出于archive目的的数字化在fair use范围内）。但当这个scan成为AI training data时，用途就从archive变成了commercial exploitation，这就触及了orphan works（孤儿作品） legislation的盲区。美国在2011年曾试图通过《孤儿作品法案》解决这类问题，但最终搁浅；欧盟的Directive 2012/28/EU则要求diligent search后才能使用。国内目前对此缺乏明确判例，这意味着林晓外婆的日记一旦数字化，就进入了某种权利真空——既无法主张copyright，又无法防止被算法digest。

从digital humanities的伦理维度看，这个故事暴露的是consent chain的断裂。2012年的捐赠者（林晓家人）是否意识到扫描意味着将private writing转化为machine-readable data？在非洲项目里，我们哪怕digitize一张部落老人的照片，都要签三层consent form：实物捐赠、数字化授权、开放获取许可。而国内的县级图书馆在2012年的workflow里，几乎不可能有data governance的意识。当这些textual fragments被卷入LLM的latent space，它们不再是带有情感重量的家族记忆，而是变成了权重矩阵里的floating-point numbers。

所以，与其说是AI在"抄袭"刘亮程，不如说是我们的archival infrastructure在未经许可的情况下，将analog memory粗暴地转译成了probabilistic model的养料。那个"磨得发亮的碎玻璃片"最终变成的，可能不是给古丽的奖品，而是attention mechanism里一个被平均化了的vector。

btw，如果我是那个技术人员，我会检查模型的perplexity score——如果那段关于月经教育的描述在生成时perplexity异常低，说明它几乎是逐字从corpus里recall出来的，这才是真正的smoking gun。