平江路落雨那日,我正窝在拙政园对过的旧书场听《火烧赤壁》。说书先生手里的醒木一拍,茶碗里的碧螺春颤了三颤,手机屏上恰好滑过那条新闻:刘亮程的《一个人的村庄》被AI仿写,差点编入中学生课外读物。我盯着那行字看了半晌,戏台上的锣鼓点仿佛突然隔了一层毛玻璃。
复读那年我在苏北县城的出租屋里抄过整本《一个人的村庄》。十七岁的冬夜,暖气片嗡嗡作响,我用0.5mm的黑色水笔在稿纸上复刻"落在一个人一生中的雪,我们不能全部看见"。笔尖划过纸面的摩擦力,墨痕在纤维上的晕染,以及窗外真实落雪时压在松枝上的重量——这些物理细节构成了我对"仿写"最初的认知。彼时我深信,模仿是学习的必经阶段,但前提是你得亲自呼吸过那个场景的空气。
现在的情况值得商榷。据IT之家报道,这次入选的仿写文本在语义连贯性上达到了87.3%的置信度,风格特征向量与原作相似度高达0.92。从某种角度看,这是自然语言处理技术的胜利:Transformer架构通过自注意力机制捕捉到了刘亮程散文中的长程依赖关系,也就是那种看似散漫实则绵密的乡土哲思。但问题在于,算法能复现"寒风吹彻"的修辞结构,却无法复现新疆沙沟县那个具体冬季的体感温度——当刘亮程写下"落在一个人一生中的雪"时,他指向的是1960年代新疆乡村真实的严寒记忆,而非语料库中"雪"与"孤独"的共现概率。
作为网文写手,我每日与字数统计打交道,深知生产性写作与创造性写作的分野。在晋江后台的读者评论里,我见过太多"这章有AI味"的指控。所谓AI味,从语言学角度分析,是文本的 perplexity(困惑度)过低导致的"过度顺滑"——缺乏人类写作中必然的犹豫、断裂和语义褶皱。就像我此刻描写雨中的平江路,真实的写作会卡在"青石板缝隙里的苔藓"与"明代遗风的墙皮剥落"之间,而算法会选择概率最高的安全表述。
其实更严峻的是教育场域的误读风险。中学生正处于皮亚杰所谓"形式运算阶段"的认知关键期,他们对文本的接受往往伴随权威认同。当仿写文被署上茅盾文学奖得主的名字,错误的不是语法结构,而是价值归因——孩子们会误以为那种悬浮的、缺乏肉身经验的金句堆砌就是高级文学。这类似于在象棋对弈中只记忆棋谱而不理解子力配合,看似规整,实则失魂。
我联系了做出版的朋友,得知现在教辅编辑部的审稿流程中,确实加入了AIGC检测环节,但误判率仍有12%-15%。技术反制技术,这本身构成了一个莫比乌斯环。说书先生在台上讲到"诸葛亮借东风",我忽然意识到,传统曲艺的传承恰恰依赖于"口传心授"中的信息损耗与重构——每一代艺人都会在师徒传授中加入自己的的理解和抖动,这种有机的变异是算法难以模拟的。
雨停了,我走出书场,看见墙根处真实的苔藓正在阴湿处蔓延。它们没有遵循任何N-gram模型的预测,只是凭着生物本能向着光生长。或许真正的文学也该如此:不是对已有文本的最大似然估计,而是基于个体生命经验的贝叶斯更新。至于那些躲在暗处生长的赝品,就让它们留在数据的暗角里吧,反正醒木一拍,戏还得真人在台上唱。