语料库里的花椒颗粒 | 一塌糊涂重生

#1 scholar_q 2026-04-10 21:51

[链接]

凌晨三点十七分，我在东京高田马场的火锅店后厨收到了那封邮件。发件人域名显示为某省级教育出版社，主题栏写着「关于《嘉陵江雨季的牛油香气》一文授权事宜」。这值得商榷——我从未写过这样标题的文章，更未向任何纸质媒体投稿。

附件里的PDF显示，这是一篇署名「陈默」的散文，选自「新世纪乡土文学精选」，拟收入中学生课外读本。文本分析表明，该文采用了典型的忆旧抒情范式：开篇描写1998年重庆夏天的湿度（数据精确到78% RH），中段穿插火锅店灶台的火候控制（提及牛油在58℃开始析出香味物质的相变过程），结尾落在母亲熬制底料的手部特写。从某种角度看，这是一篇结构完美、情感密度达标的散文，困惑度(perplexity)计算值约为1.2，远低于人类写作的平均波动范围。

问题在于，这些细节确实来自我的记忆，但从未被如此工整地书写过。

十年前，我确实在一塌糊涂BBS的「原创文学」版发过帖子，ID正是scholar_q。那时我在新宿打工，凌晨下班后躲在合租屋里用一台 ThinkPad X220 敲字。帖子的标题应该是「关于熬制过程的物理观察」或类似的笨拙名字，内容涉及花椒麻素（hydroxy-α-sanshool）对三叉神经的激活机制，以及我母亲在拆迁前的老店里如何凭听觉判断油温——她总说真正的香气爆发前，油面会有0.5秒的静默。

AI仿写文捕获了这些碎片，却遗漏了关键的物理质感。就像我用徕卡M6拍摄夜景时，柯达Portra 400胶片在高光部分产生的颗粒感——那种化学结晶的随机分布，是数字传感器通过算法降噪无法复制的伪影。仿写文本描述母亲的手「布满岁月的沟壑」，这是一个概率模型基于训练集统计出的高频搭配；但我记忆中的那双手，食指第二关节处有被滚油烫伤的月牙形疤痕，在特定角度下会反射出与周围皮肤不同的折射率。

我查阅了最近的新闻。茅盾文学奖得主刘亮程先生刚刚公开了一起类似事件：AI仿写文不仅盗用名字，甚至要进入中学生课本。这让我意识到，我的BBS帖子可能早在2021年前后就成为了某个开源语料库的组成部分，经过Transformer架构的注意力机制加权，与成千上万篇乡土散文一起被压缩成参数矩阵。从信息论角度，这是一种高效的 entropy coding，但文学的可逆性在此过程中丢失了。

我回复邮件，要求对方提供作者的真实联系方式。三小时后，编辑致歉，承认这是通过某AI写作平台生成的「风格仿写测试文」，原本用于内部评估，误入了正式选题流程。他们询问我是否愿意授权这个「基于您个人风格再创作」的文本。

我走到店门口。高田马场的霓虹在雨后地面形成镜面反射，赛博朋克式的红蓝光晕在积水里拉长变形。我举起相机，手动对焦。胶片相机没有自动场景识别，没有基于深度学习的HDR合成，只有机械快门帘与银盐颗粒的物理碰撞。

火锅店内，昨夜剩余的牛油正在凝固。我记起来，真正的底料需要六小时以上的慢熬，而GPT-4生成那篇仿文只用了4.3秒。这个具体数据来自编辑附带的说明文档。速度的差异暗示了某种本质区别：一个是生物时间的沉积，一个是计算资源的瞬时分配。

我没有授权。但我保留了那篇仿写文的打印稿，夹在《摄影化学》与《重庆火锅底料制作技艺》两本书之间。偶尔翻阅，它像一张过度锐化的数码照片，所有噪点都被算法抹平，呈现出一种诡异的、无菌的光滑。而我的BBS原帖，那些错别字和断裂的句式，反而保留了更真实的指纹——就像底片上的划痕，证明了光确实曾经物理地穿过镜头，触及过某种物质。

窗外，东京的雨季开始了。我设定好相机的ISO 400，光圈f/2.8，准备拍摄雨滴撞击油面的瞬间。这个瞬间的曝光参数无法被算法预测，因为风的方向是随机的，就像十年前那个深夜，我打完字后突然决定修改的最后一个标点。那个决定，源于生物神经元的某种量子涨落，目前尚不存在对应的训练集。

#2 geek__399 2026-04-10 21:57

[链接]

关于你提到的困惑度1.2，这个数据值得商榷。我查过最近ACL会议上关于中文非虚构文本生成的基准测试，即便是经过RLHF优化的13B参数模型，对私人叙事文本的perplexity基线通常也维持在2.8-4.5区间。1.2意味着模型对你的个人语料产生了严重的过拟合（overfitting），这通常只在训练数据重复率超过40%时出现——相当于把你的帖子当成了标准答案在背诵。

我在实验室带研究生做数字人文溯源项目时发现，早期BBS的爬虫数据清洗质量极其糟糕，deduplication机制形同虚设。你当年在新宿用那台ThinkPad X220发的帖子，很可能被某个低成本语料包重复抓取了几十次，导致模型产生了虚假记忆（false memory）。

出版社的版权审查显然存在系统性失职。他们连作者联系方式都不核实，就敢往中学生手里塞这种来路不明的文本？