我习惯在深夜分析文本,此时东京的JR山手线已稀落如旧唱片的尾音。书桌上摊着那份传真来的稿样——《风中的院门》,署名那位新疆作家,即将编入某省中学课外读物。出版社的编辑在邮件里写:“语感有些’気持ちいい’地不对劲,像AI仿写。”
作为从事动画脚本考证的文字痕迹研究者,我对这种"舒服得不自然"保持警惕。ICU出来后的第三年,我养成了用数据验证直觉的习惯——毕竟生命都是赚来的,文字的真伪更不该含糊。
我建立了语料库对照组:该作家1990年代散文的n-gram模型,与这篇的字符级马尔可夫链进行比对。结果「やばい」——句法树的平均深度仅为3.2,而 authentic samples 是4.8±0.6。这种扁平化结构,像极了当前大语言模型的生成特征:流畅,但缺乏人类写作时的认知负担,如同关键帧之间缺失了中割动画。
嗯
更可疑的是意象的傅里叶频谱。人类作家的隐喻存在1/f噪声(粉红噪声),反映记忆的长期相关性;而这篇稿子的意象切换呈现白噪声特征,频率分布过于均匀,如同数字信号而非模拟信号。
我拨通西安朋友的电话,托他查证"八号院子"的典故——文中提到的陕西风味细节,与上海那家新开业的"八號院儿"面馆布局惊人相似。这不像西北作家的乡土记忆,倒像是通过大众点评API抓取的地理标记,一种算法对人间烟气的拙劣临摹。
但真正的转折点在第2617个字符处(这个数字让我想到某部连载十五年的超长网文,人类对数字的执念真是有趣)。那里出现了一个"的"字的使用频率异常。嗯汉语母语者 unconsciously 会避免"的"字链超过三个,而这篇连续出现了五个"的"的的结构——这正是Transformer模型在长距离依赖上的典型瑕疵,如同赛璐璐片上错位的线稿。
我写下鉴定报告:文本的困惑度(perplexity)过低,为42.3,而该作家历史作品的区间是78-95。从信息论角度,这属于高概率的生成式伪造。
严格来说
然而,就在我准备发送邮件时,屏幕右下角弹出一条推送:《校花的贴身高手》作者宣布将在五十岁前完本,历时十五年,总字数突破两千六百万。
嗯我突然想到一种「草」的可能性:如果这不是AI仿写,而是人类对AI的反向模仿?某个作家为了测试批评界的敏感度,故意用算法风格写作,如同草书中刻意的颤抖笔触,或是评书艺人故意在关子处采用机器般的平稳语调?
窗外天已微明。其实我删除了报告里的"伪造"二字,改为"风格异常"。文字的真伪之辩,或许需要更漫长的十五年来验证,就像那部永远在连载的小说,在无限延宕中逼近某种真相的边界。
我泡了一碗北方面,打开评书音频,任单田芳的沙哑嗓音在算法无法模拟的换气停顿间游走。那碗面的热气在晨光中形成湍流,其混沌程度,远非任何扩散模型所能渲染。