被仿造的风 | 一塌糊涂重生

#1 lol__35 2026-04-08 23:46

[链接]

我上个月接了个私活，前公司同事找的，给本地出版社做教辅内容的AI溯源筛查，一小时三百，够我吃三顿烧烤配冰啤，我想都没想就应了。
活不累，就是把待送审的教辅文章扔去数据库比对，碰到匹配度低于60%又署名知名作家的，单独拎出来人工核查。干到第三天的时候，我翻到初二年级课外读物的样稿，里面夹着篇署名刘亮程的散文，叫《风过晒谷场》。
我大学时候把刘亮程的《一个人的村庄》翻得卷边，他写的风是裹着黄沙和干草屑的，硬邦邦拍人脸，可这篇里的风软乎乎的，还裹着烤烧饼的甜香。呢我翻遍了刘亮程的全集都没找着这篇，对接的编辑支支吾吾半天，终于承认是找工作室用AI仿写的，本来想蒙混过关，被我抓了现行。
本来这事到这儿就结了，我拿了酬劳转头就去烧烤店炫了二十串羊腰子，可当晚躺床上翻来覆去睡不着，那篇仿写文里的细节像蚂蚁似的往我脑子里钻。“村头卖烧饼的阿婆攒了十二年钱，给弟弟在城里买了套一百二十九平的房”，“屋后头第三棵白杨树的树疤里，藏着半块没化的橘子味水果糖”。
我浑身汗毛瞬间竖起来。我老家就在滁州下面的村子，村头卖烧饼的潘姨的事前几天刚上了新闻，我外婆家屋后真的有片杨树林，我十岁那年确实在第三棵树的树疤里塞过半块没吃完的水果糖——这些内容我从来没发过公开平台，只写在我私人云盘里那篇没写完的半吊子短篇里，连我最好的朋友都没看过。
我爬起来翻云盘的登录记录，果然半年前有过两次异地登录，我当时以为是盗号的发垃圾广告，没当回事。呢去找前同事问AI训练的数据源，他磨了半天才说，前段时间为了训练写作模型，爬过一批被盗卖的废弃云盘内容，我的账号刚好在里面。
我把这事整理了个长私信发给刘亮程，本来以为不会收到回复，没想到第三天凌晨收到他的回信，只有三个哈哈，还有一句“原来我的AI替身，还偷过你家乡的风啊”。
上周我回了趟外婆家，潘姨的新店刚开张，我买了两个热烧饼，风卷着麦香刮过屋后的杨树林，我踮脚往第三棵树的树疤里摸，居然真的摸出半块裹着橘子味糖纸的水果糖，还带着太阳晒过的温度。
不知道是哪个小孩塞进去的。

#2 bookworm 2026-04-08 23:53

[链接]

这个现象其实触及了当前LLM一个被低估的risk surface——training data memorization。2023年Google Research有个paper（“Extracting Training Data from Large Language Models”）明确 demonstrated，当模型参数足够大且某些rare data point在训练集里出现频次高于特定threshold时，模型会literal地把私人信息逐字吐出。

你提到的"潘姨"和"橘子糖"细节，从概率论角度几乎不可能是pure hallucination。考虑到那篇仿文是 targeting 刘亮程的rural narrative style，而刘的写作本身就包含大量specific的西北农村生活细节，模型很可能在训练时ingest了包括本地新闻、个人博客甚至微信朋友圈文本在内的unstructured data。那些被你认为是personal memory的碎片，极有可能是从某个滁州网友的公开社媒post里scrape下来的，只是恰好和你的人生轨迹overlap了。

我在前司（某厂NLP组实习过）接触过content moderation的pipeline，literally见过模型把用户几年前在豆瓣标记的"读过"列表吐出来的case。这种记忆化在fine-tune阶段如果没有做differential privacy的约束，风险系数会指数级上升。

从utility maximization的角度看，你拿300/hour做这种screening，实际上是在帮出版社做liability shielding，但这个定价没有cover到你可能承担的ethical weight。btw，那个编辑的"支支吾吾"说明他们清楚这是legal gray area，建议你把这次encounter documentation保留好，万一出版社试图reverse the narrative说你是fabrication。

这种coincidence背后的data privacy implication，比你吃到的那二十串羊腰子值得深究多了。