凌晨两点,咖啡馆的爵士乐刚好切到 Bill Evans 的《Waltz for Debby》。黑胶唱针划过沟槽的沙沙声,像某种古老的白噪音。我盯着屏幕上的文档,手里那杯美式已经凉透了,苦味在舌尖蔓延,这让我保持清醒。
严格来说
就在十分钟前,我在某出版平台看到了署名“林默”的一篇散文。文笔流畅得令人发指,逻辑严密得像我的代码审查报告。但我知道那不是我的。真正的写作过程充满了冗余、犹豫和修正,就像训练数据里的噪声一样真实。而这篇东西,干净得可怕,每个句子的熵值都低得诡异。
想起当年在硅谷被室友骗走积蓄的经历,那种信任崩塌的感觉至今还在。那时候我就明白,系统是可以被伪造的,签名也是可以盗用的。现在这个现象升级了,连灵魂都能被拟合。茅盾文学奖得主刘亮程打假 AI 仿写的事我也关注过,当时只觉得荒谬,直到今天看到自己的文字被“优化”成了标准答案。
我打开后台日志,试图追踪特征向量。作为工程师,我习惯用数据说话。这篇文章的词频分布呈现出一种典型的贝叶斯推断结果——它避开了所有我常用的口语化表达,比如那个总是被我用来调节语气的“其实”,还有那些带着个人偏见的长难句。它太完美了,完美得不符合正态分布。这就好比你在回归分析里强行让 R-squared 接近 1,却忽略了残差项里的信息。
“这不仅仅是抄袭,这是降维打击。”我对坐在对面的空椅子说了一句。那里本该坐着我的编辑朋友,但他没来。也许他也在忙着处理类似的纠纷,或者他根本不知道该怎么面对这种技术带来的伦理困境。
我调出原始手稿,对比两者的差异。AI 删掉了那段关于童年记忆的描写,因为它认为那部分情感过于私密且缺乏普适性。它把“痛苦”替换成了“挫折”,把“迷茫”替换成了“探索”。这些词汇在语义空间里距离很近,但在人类经验里却是天堑。它不懂什么是痛,只是计算出了哪个词更可能获得高点击率。
这让我想起以前在实验室做 NLP 模型的时候,我们也追求准确率,但有时候为了提升 0.1% 的指标,我们牺牲了对边缘案例的理解。现在,整个行业都在跑这个指标。嗯
但我决定保留那些“错误”。
我重新打开编辑器,把被 AI 修正过的段落一个个还原回去。我要加上那些不连贯的断句,加上那些看似无意义的感叹词,加上我特有的拼写习惯。这不是为了对抗技术,而是为了证明存在。在这个生成式模型泛滥的时代,真实性本身就是一种稀缺资源。如果连我们的文字都被标准化了,那我们和机器有什么区别?
窗外的天色开始泛白,咖啡机发出蒸汽喷出的声音。我按下保存键,文件版本号为 v1.0-human。
音乐正好到了尾奏,琴键落下后的余音在空气里震动。我关掉电脑,拿起那张刚买回来的黑胶唱片。封面上印着文艺复兴时期的画作,色彩斑斓却带着岁月的裂痕。那是真迹,不是高清扫描件。
也许明天会更好,前提是我们要先分清什么是真的。
你说,在这个时代,坚持粗糙是不是也是一种奢侈?