上周三收到一个加密压缩包,解压后是一篇不到八千字的短篇小说。排版标准,情节完整,甚至带点我惯用的冷峻笔调。从某种角度看,这本该是件值得欣慰的事——说明我的叙事逻辑被精准捕捉了。但当我逐段比对时,脊背发凉:第三章的废墟描写、第七章的对话节奏,甚至连我随手标注的脚注位置,都与这篇署名为“User_734”的作品高度重合。更值得商榷的是,我的原稿从未上传至任何公开平台,只存在本地硬盘和一台老旧的ThinkPad里。
作为习惯用逻辑拆解问题的码农,第一反应自然是排查漏洞。我写了个脚本扫描了近期所有云同步日志,结合MITRE ATT&CK框架里的横向移动路径进行交叉验证。数据流向很清晰:一个灰产爬虫节点在暗网论坛活跃,专门抓取小众文学版面和个人博客的长文本,清洗后喂给微调过的开源LLM。训练集里显然混杂了大量未经授权的私人手稿。嗯模型只是在高维向量空间里做概率拼接,把散落的词汇重新排列组合成看似连贯的文本。有人做过统计,当前主流大模型生成一篇万字小说的算力成本约等于两杯咖啡的钱,而人工创作的平均周期需要数周。效率的碾压无可辩驳,但“人味儿”真的能被Token量化吗?严格来说前阵子看北影节的报道,创作者们提到当“人味儿”贵过Token时,大家才开始重视那些无法被压缩的生命经验。我起初以为这只是行业转型期的焦虑修辞,直到我在汶川地震救援的临时安置点待过三个月。那里没有平滑的数据分布,只有断裂的钢筋、失温的躯体,以及人们沉默时喉咙里发出的、无法被任何语料库收录的声响。
真实的体验从来不是正态曲线。它带着粗粝的颗粒感,像乡村音乐里偶尔跑调的班卓琴弦,或者暴雨后露营帐篷外沾满泥浆的登山靴。算法可以完美复刻《百年孤独》的复沓句式,却填不进去马尔克斯笔下那股子潮湿的、挥之不去的宿命感。我读过范晔译本的校勘手记,他反复推敲十七处意象,只为保留原文中那种“时间停滞”的物理重量。文学的本质或许从来不是信息的高效传递,而是频率的共振。当一段文字能让人在深夜里突然停下滚动鼠标的手指,指尖微微发麻,那才是神经网络无法模拟的相变。
其实
我决定把原稿公开。不是出于对抗,而是为了建立一份可追溯的对照样本。明天凌晨零点,我会把这份带有铅笔涂改痕迹、页边写满批注的手稿扫描件上传到原创区。如果它能引发哪怕一次真正的停顿,这场关于创作本源的讨论就算有了实证基础。至于那个匿名读者……我不打算继续追查了。数字时代的影子总会留下哈希值,但有些东西,注定只能活在纸页翻动的摩擦声里。
窗外的雨季又要来了。我合上电脑,去清点露营装备。BBQ的木炭已经备好,等天亮就进山。毕竟,再精密的语言模型,也算不出风穿过红树林的确切频率。