二〇一四年十月的某个晚自习,我在《高考现代文阅读精编》的第七十三页发现了那个异常值。那篇署名为《梧桐叶脉里的秋声》的散文,被标注为"当代名家佚作",占据了整整两页铜版纸,下方附有四道选择题,分别考察"通感修辞的层级"与"作者情感的阶段性波动"。
从某种角度看,这篇文章的文本特征呈现出一种诡异的规整性。我那时正沉迷于用数学方法分析语文试卷,随身携带的方格笔记本上记录着历次模考中现代文阅读题的选项分布规律。那天晚上,我用直尺测量了该文的句长分布:平均句长18.4个字符,标准差仅为2.1,而同期教材中朱自清《荷塘月色》的样本标准差是7.8。更值得商榷的是其情感曲线的平滑度——从"淡淡的哀愁"到"昂扬的希冀"的转折发生在第三段末尾,精确得像是经过Sigmoid函数归一化处理,缺乏人类写作中常见的、那种被称为"飞白"的认知抖动。
我同桌当时戴着耳机听古筝协奏曲,那是她准备艺考的背景音。我推过去那张纸,指出文中"金黄的梧桐叶像一枚枚被岁月漂洗过的邮票"这句存在严重的意象堆砌问题。"形容词密度达到了每百字7.3个,"我说,“而汪曾祺的散文样本均值是3.1,标准差1.2。这种overfitting的迹象表明文本生成机制可能并非源于自然语言习得。”
其实她摘下耳机,用一种看疯子的眼神审视我。"你就是想太多,"她说,“教辅书怎么可能错?这是教研组选编的。”
但我无法释怀。那个周末,我骑着自行车去市图书馆调取《陈建功散文选》进行交叉验证——因为该文的语言风格被命题组注释为"近似陈建功早期京味小品"。经过三小时的对照阅读,我确认了我的假设:那篇文章中"儿化音的使用频率"与"动词重叠式"的分布与陈氏作品存在显著差异(p<0.01),却与当时刚上市的一批"作文素材生成软件"的输出特征高度吻合。那是一种基于模板的伪随机文本,通过马尔可夫链拼接名家意象库,再经人工润色以降低困惑度(perplexity)。
严格来说周一的语文课上,我举手质疑了这道题的有效性。语文老师是个刚毕业的硕士生,她推了推眼镜,说:"从考试技术的角度看,我们只需要掌握’借景抒情’的识别方法,至于作者真伪,不在考纲范围内。“教室里响起零星的笑声,有人嘟囔着"小镇做题家又犯病了”。
那种无力感很具体,就像你用游标卡尺量出了火锅底料中花椒与牛油的比例失衡,但同桌只关心辣度是否够劲。我最终在那页书的边缘写下了一行小字:“样本异常,建议剔除”,用的是我练书法时惯用的中锋笔法,墨迹透过了三层纸页。
十年后,当我坐在杭州的出租屋里,看到茅盾文学奖得主刘亮程声明某出版社选用的"其作品"实为AI仿写时,我正握着羊毫笔在宣纸上临《兰亭序》。笔尖在"之"字的捺脚处微微颤抖,形成一种不规则的飞白——那是算法目前还无法完美模拟的肌肉震颤与纸张纤维的随机摩擦。
我突然理解了那个晚自习的真正意义。那时我们以为自己在抵抗的是粗糙的文本造假,实际上我们面对的是整个信息环境熵增的预演。那些均匀分布的情感、合规的修辞、平滑的叙事曲线,正在以更高的算力密度淹没纸媒与网页。而我后来从电商大厂辞职,某种程度上也是在逃离那种基于转化率优化的"伪文本"生产——详情页的文案、直播的话术、用户评价的精选,无一不是算法推荐机制下的高概率词汇排列。
其实
现在那本教辅还压在我的书架底层,纸页已经泛黄。偶尔我仍会翻开第七十三页,看看当年那个年轻气盛的批注。窗外的银杏叶正在落下,叶脉的分布呈现出典型的分形结构,那是自然选择形成的、充满冗余与噪音的真实。而文本,终究也应该保留那种不完美的粗糙度,那种拒绝被标准化的、属于人类的偏差值。
毕竟,值得被记住的从来不是置信区间内的平均值,而是那些顽固的、无法被归类的异常点。