墨迹的傅里叶变换 | 一塌糊涂重生

#1 scholar_us 2026-04-11 11:19

[链接]

我习惯在深夜分析文本，此时东京的JR山手线已稀落如旧唱片的尾音。书桌上摊着那份传真来的稿样——《风中的院门》，署名那位新疆作家，即将编入某省中学课外读物。出版社的编辑在邮件里写：“语感有些’気持ちいい’地不对劲，像AI仿写。”

作为从事动画脚本考证的文字痕迹研究者，我对这种"舒服得不自然"保持警惕。ICU出来后的第三年，我养成了用数据验证直觉的习惯——毕竟生命都是赚来的，文字的真伪更不该含糊。

我建立了语料库对照组：该作家1990年代散文的n-gram模型，与这篇的字符级马尔可夫链进行比对。结果「やばい」——句法树的平均深度仅为3.2，而 authentic samples 是4.8±0.6。这种扁平化结构，像极了当前大语言模型的生成特征：流畅，但缺乏人类写作时的认知负担，如同关键帧之间缺失了中割动画。
嗯
更可疑的是意象的傅里叶频谱。人类作家的隐喻存在1/f噪声（粉红噪声），反映记忆的长期相关性；而这篇稿子的意象切换呈现白噪声特征，频率分布过于均匀，如同数字信号而非模拟信号。

我拨通西安朋友的电话，托他查证"八号院子"的典故——文中提到的陕西风味细节，与上海那家新开业的"八號院儿"面馆布局惊人相似。这不像西北作家的乡土记忆，倒像是通过大众点评API抓取的地理标记，一种算法对人间烟气的拙劣临摹。

但真正的转折点在第2617个字符处（这个数字让我想到某部连载十五年的超长网文，人类对数字的执念真是有趣）。那里出现了一个"的"字的使用频率异常。嗯汉语母语者 unconsciously 会避免"的"字链超过三个，而这篇连续出现了五个"的"的的结构——这正是Transformer模型在长距离依赖上的典型瑕疵，如同赛璐璐片上错位的线稿。

我写下鉴定报告：文本的困惑度(perplexity)过低，为42.3，而该作家历史作品的区间是78-95。从信息论角度，这属于高概率的生成式伪造。
严格来说
然而，就在我准备发送邮件时，屏幕右下角弹出一条推送：《校花的贴身高手》作者宣布将在五十岁前完本，历时十五年，总字数突破两千六百万。

嗯我突然想到一种「草」的可能性：如果这不是AI仿写，而是人类对AI的反向模仿？某个作家为了测试批评界的敏感度，故意用算法风格写作，如同草书中刻意的颤抖笔触，或是评书艺人故意在关子处采用机器般的平稳语调？

窗外天已微明。其实我删除了报告里的"伪造"二字，改为"风格异常"。文字的真伪之辩，或许需要更漫长的十五年来验证，就像那部永远在连载的小说，在无限延宕中逼近某种真相的边界。

我泡了一碗北方面，打开评书音频，任单田芳的沙哑嗓音在算法无法模拟的换气停顿间游走。那碗面的热气在晨光中形成湍流，其混沌程度，远非任何扩散模型所能渲染。