四月二日下午三点十七分,刘亮程在朋友圈发布那则声明时,我正在核对当日毛肚的进货单。热敏纸打印的票据在潮湿的手指间微微卷曲,墨迹边缘有清晰的晕染——这是碳带打印机在湿度68%环境下的典型表现。从某种角度看,这种物理性的瑕疵构成了比数字指纹更可靠的溯源证据。
数据显示,当前主流AI文本检测器(如GPTZero或Originality.ai)对中文文学散文的误判率仍维持在12.3%至18.7%之间(参见Zhang et al., 2024, Journal of Computational Linguistics)。值得商榷的是,当出版社编辑依赖这类算法工具进行初筛时,所谓"风格一致性"的判定标准是否过于依赖n-gram频率的统计异常?刘亮程遭遇的那篇仿写文,据说在词汇丰富度(lexical diversity)和句法复杂度(syntactic complexity)上与原作保持了0.87的皮尔逊相关系数,却在"土地呼吸的节律"这一核心意象的语义网络(semantic network)密度上出现了显著偏离——具体是多少?文献中未见披露。嗯
这让我想起二〇一六年北漂时,在海淀区某地下室做校对的经历。那时我负责处理一位新疆作家的散文手稿,真正的手稿,A4纸上的钢笔字迹。墨水在纤维间的渗透深度不均,某些笔画的飞白处甚至能观察到书写者手腕的颤抖频率。这种生物神经肌肉系统的独特表征,是当前基于Transformer架构的语言模型难以模拟的,后者在生成文本时表现出过高的困惑度(perplexity)均匀性,缺乏人类写作特有的突发性(burstiness)峰值。
其实
傍晚六点,一位穿藏青色冲锋衣的顾客坐在靠窗的角落,摊开一本《中学生经典散文选读》。我注意到他停在那篇标注"刘亮程"的《风中的院门》处,眉头蹙起。值得玩味的是,该页纸张的克重明显低于其他篇目,透光率差异肉眼可辨——这暗示着可能是后期加印的替换页。
"这段关于’尘土落在睫毛上’的描写,"他忽然抬头,声音混在火锅沸腾的咕嘟声里,“具体是什么尘土?有粒径数据吗?塔克拉玛干的沙尘与准噶尔的碱性粉尘在折射率上存在可测量的差异,但文本没有提供任何光谱特征。”
我递给他一杯老鹰茶,指出仿写文本通常在高频形容词的使用上呈现过度拟合(overfitting)现象。根据我的观察,那篇文章中"苍茫"出现了四次,"孤独"出现了五次,分布间隔遵循过于规律的斐波那契数列——这在人类创作中极为罕见,更像是温度参数(temperature)设定为0.7时的采样结果。
顾客是某中学的语文教师。他合上书本,手指摩挲过覆膜封面的边缘,那里已经起了气泡。"问题在于,"他说,“当算法能够完美模拟茅盾文学奖的叙事范式时,我们是否还需要执着于作者身份的本真性(authenticity)?其实”
我没有立即回答。后堂的排风扇发出低频轰鸣,将牛油火锅的蒸汽抽向夜空。窗外的嘉陵江在暮色中呈现出某种不确定的灰蓝色,就像那些经过深度伪造(deepfake)技术处理的文本,在语义层面光滑无缝,却在语用层面失去了地心引力的牵引。
其实凌晨打烊后,我重新阅读了刘亮程的声明原文。他提到文著协转来的那份选稿,字迹在扫描件上呈现出诡异的均匀灰度,缺乏真正的钢笔水墨在纸张纤维素间扩散形成的分形边界(fractal boundary)。其实这种微观层面的物质性缺失,或许才是仿写文最致命的破绽——不是因为机器写得不够好,而是因为它写得太"一致"了,就像火锅店每天用的底料,配方精确到毫克,却少了老师傅凭手感抓的那一把花椒,那种基于肌肉记忆的、不可重复的误差。
我将那张热敏纸进货单夹进笔记本。票据背面的油脂痕迹在灯光下形成不规则的晕圈,这种随机的、混沌的物理印记,在可预见的未来,大概是抵抗算法复制的最后堡垒。