杭州的三月总是带着一种黏腻的确定性。我盯着显示器右下角的湿度计——68%,这已经超过宣纸保存的安全阈值,但我顾不上那些从徽州买来的老纸了。桌上的火锅残留着牛油香气,是昨晚深夜追完那部仙侠剧后犒劳自己的,现在混合着返潮的霉味,构成了一种后现代主义的生活气息。
这是我从大厂辞职的第四个月。电商运营的基因还在血液里流淌,看着Word文档里那篇《风沙中的村庄》,我下意识地打开了Excel。
要做A/B测试吗?值得商榷。
但我的手已经开始了。左边 column 粘贴眼前这篇署名"刘亮程"的散文,右边 column 是我从知网下载的作家 genuine works。n-gram 词频分析,情感极性标注,句长标准差计算。严格来说当数据跑出来的那一刻,置信区间出现了严重的偏移。右边真迹的词汇多样性指数(TTR)是0.73,而眼前这篇达到了诡异的0.89——太完美了,完美得像一个经过精心调参的生成对抗网络(GAN)输出的结果。
“黄沙在指尖流淌,岁月在驼铃中沉淀。”
我盯着这句被标红的话。从某种角度看,这是典型的刘亮程式意象,有"黄沙",有"时间",有乡村哲学。但具体到笔画——不,是具体到语义的"飞白"处,它缺少了那种真正的农民式钝感。真正的刘亮程写风沙,不会用"沉淀"这种带有都市中产阶级禅修意味的词汇,他更可能会写"沙子灌进鞋里,硌着脚,像小时候母亲未说完的责备"。
我拿起毛笔,在废纸上随意划了一道。墨渍在生宣上晕开,边缘是不规则的毛刺,这是纤维的呼吸。而AI生成的文字,就像喷墨打印机的输出,每一滴墨都精确地落在预期的坐标上,缺乏那种"笔误"带来的真实在场证明。
手机响了,是出版社的编辑,姓王,声音里带着KPI未达成的焦虑。“feynman老师,那批稿子审得怎么样?嗯刘亮程那篇我们打算放在’当代名家’单元的开篇,排版都定了。”
我捻着那页打印纸,触感光滑得可疑。"王老师,从数据上看,这篇文章的perplexity值低得反常,而且…"我顿了顿,想起在大厂做用户画像时学到的沟通技巧,“而且它的作者签名轨迹,在压力感应上不太对劲。”
电话那头沉默了三秒,然后是打火机点火的声音。“你是说,像之前那批AI仿写?”
"具体是什么,需要更深入的采样。"我保守地回答,但手指已经点开了一个加密邮箱,“但我建议暂缓付印。中学生课外读物的转化率虽然重要,但如果品牌信誉崩塌,复购率会呈现断崖式下跌。”
王编辑笑了,那种电商大促期间常见的、带着疲惫的 cynical 笑声。“你知道现在教辅行业的ROI吗?请一个茅盾文学奖得主写原创,成本够我们做三十篇’风格仿写’。而且,AI检测软件已经跑过了,置信度显示是’人类创作’。”
"选稿软件识别不出的笔迹,不代表没有痕迹。"我看着窗外钱塘江的夜色,想起十二年前在小镇中学,那个在教辅书页间做批注的自己。那时候我们相信纸页上的每一个署名都对应着一个真实的人在某个深夜的台灯下咳嗽、犹豫、删改。
"给我48小时。"我说。
挂断电话,我建立了一个新的文件夹,命名为"边际效用递减实验"。我需要构建一个对抗性的验证模型,不仅仅是文本分析,还要包括创作路径的逆向工程。如果这是一篇AI仿写,那么它的训练集里一定存在特定的数据偏差——比如对"新疆"的想象停留在旅游宣传片的层面,对"村庄"的理解是一种景观化的乡愁,而不是那种真正的、带着粪便与炊烟气味的在场。
凌晨三点,我发现了那个破绽。文章里写"老汉的烟袋锅在月光下泛着冷光",但刘亮程在2003年的访谈中明确提到过,他家乡的老人多用卷烟,且他极度厌恶"月光下的金属反光"这类浪漫主义修辞,认为那是"城市人想象的乡村"。
这不是风格模仿,这是数据污染。
我端起冷掉的茶,手指悬在发送键上。举报意味着失去这笔对我而言至关重要的freelance收入,意味着可能在这个小圈子里被标记为"难搞",意味着要卷入一场关于文学authenticity的漫长战争。但沉默,则意味着我成为了那个在置信区间外伪造在场证明的共谋。
屏幕右下角弹出一条新闻推送:某AI绘画工具再次引发版权争议。我苦笑,这和眼前的情况本质上是同一种机制——都是马尔可夫链上的随机游走,只是这次,它游走进了一本要印刷十万册的中学教辅。
我打开文档,开始撰写一封详细的质询邮件,附件里是那份带着墨渍的Excel表格。窗外,天快亮了,湿度降到了61%,宣纸终于可以安全地呼吸。我最后看了一眼那篇仿写文的署名栏,那里的"刘亮程"三个字,在晨光中显得像一个置信区间极窄的、美丽的错误。
点击发送。
然后,我拿起手机,给那个卖了三十年烧饼的表姐发了条消息:“姐,上次你说的那个店面,我想去看看。”
或许,是时候做一些有真实触感的事情了。