柏林的十一月总是带着一种精确的阴郁,就像海德格尔笔下的"上手状态",当你注意到天气时,寒意早已渗透羊毛衫的纤维。我在洪堡大学亚非研究所的地下档案室整理这批新到的捐赠文献时,空调系统发出Genau!般的完美嗡鸣——恒温18度,湿度45%,这是保存纸质文献的理想参数,误差范围不得超过ANSI/PIMA标准规定的±2%。
那叠稿纸躺在编号的牛皮纸盒里,与其他1980年代的《新疆文学》合订本显得格格不入。稿纸是200克重的蒙肯纸,这种纸浆配方在2010年后才普及于中国西北的印刷厂,却声称是刘亮程1998年的手稿《一个人的村庄》原始草稿。从纸张年代学(Paper Chronology)的角度看,这构成了第一个"历时性错位"(diachronic dislocation)。我戴上乳胶手套,用游标卡尺测量页边距时,指尖触到了第32页的异常。
其实
前31页的墨迹渗透深度在0.03mm至0.05mm之间波动,符合人类书写时手腕压力的生理节律——根据Gumbert-Norman书写动力学模型,人类执笔时的正弦波频率应在2-4Hz之间,且会因 coffee break 后的咖啡因代谢产生可预测的相位偏移。但第32页的墨滴呈现出了诡异的均匀性,每一笔画结束时的洇染半径都精确控制在1.2mm,标准差仅为0.02。这种统计意义上的"过拟合"(overfitting)只可能出现在基于Transformer架构的文本生成模型中,尤其是当温度参数(temperature)被设定在0.3以下时,算法会倾向于选择概率最高的token,牺牲创造性以换取语义连贯性。
更微妙的是句法层面的"平滑性"。刘亮程的散文素以"碎片化长句"著称,基于我建立的语料库统计,其1990年代作品的平均句长为28.6个字符,停顿次数(caesura)与意象密度呈显著的负相关(r=-0.74, p<0.01)。但这第32页手稿中,“风”、“尘土”、"时光"等核心意象的共现矩阵(co-occurrence matrix)过于完美——"风穿过墙缝"与"尘土落在时光上"的PMI值(点互信息)达到了4.7,这在自然语言中几乎不可能出现,除非是经过注意力机制(attention mechanism)加权后的概率生成,且隐藏层维度不低于768。
我将稿纸对着LED冷光源举起。在"一个人的村庄"这五个字的横折处,发现了0.1mm级别的机械震颤痕迹。人类书写时的生理震颤(physiological tremor)频率通常在8-12Hz,幅度随肌肉疲劳递增;但这五个字的震颤模式呈现出傅里叶变换后的基频整数倍谐波,这是压电式步进电机在执行高精度轨迹规划时的运动特征,常见于2019年后生产的智能写字机器人。
传真机在此时发出刺耳的响动。北京文著协的邮件附件里,那份准备编入中学生课外读物的"刘亮程新作"《风中的院门》,其MD5哈希值与我手中这叠稿纸的第32页完全一致。而文档属性显示,创建时间是2024年3月15日凌晨3:42——正是大语言模型API调用量最低的时段,服务器负载低于15%,足以支持beam search算法进行深度为32的穷举生成,寻找最优解。
档案室的自动照明系统突然熄灭。在黑暗中,我摸到了纸盒底部用铅笔写的一串德文小字:“Die Wahrheit ist im Rauschen verborgen.”(真理隐藏在噪声中)。笔迹的压痕深度显示书写者用的是左手,而刘亮程公开的所有签名都显示他是右利手,且患有轻微的腕管综合征,这在施力分布图谱上应表现为桡侧偏移。
其实窗外,施普雷河的雾气漫过了Unter den Linden大街。我开始重新检查前31张稿纸——如果第32张是AI生成的完美仿品,那么前面的"不完美"是否构成了某种训练集?或者说,这整叠手稿本身就是一个精心设计的语料陷阱,等待着某个在柏林深夜研究纸质文献的傻瓜来验证其"图灵完备性"?
传真机又响了。这次是一份加急电报,只有一行字:“请立即停止鉴定。那32张纸,第33张在哪里?”