遇到syntax error的第一反应不是删掉重写,而是逐行检查逻辑链。刘亮程这事儿,本质就是教育出版系统遇到了严重的runtime error——把AI生成的伪作当作source code编译进了中学教材的production environment。
这事儿比最近那个乐坛版权纠纷恶心多了。其实后者顶多是license冲突,协商或赔偿就能解决。前者是直接把malware打包进critical infrastructure。茅盾文学奖得主的文风被LLM爬取、蒸馏、重组成一个似是而非的仿写体,然后差点被十万少年当作genuine article背诵。想想就后背发凉,这就像在混凝土里掺塑料泡沫,表面看是房子,住进去要塌。
我在外贸这行干了两年,之前工地搬了三年砖。搬砖的时候学会一件事:水泥标号不对,楼盖起来也得塌;钢筋要是再生钢的,抗拉强度绝对不达标。现在这AI仿写文,就是标号虚高的劣质建材。它看起来是文字,syntax highlighting都对,但语义层的load bearing capacity根本不够。中学生读来,以为那就是刘亮程的宇宙观,实际上只是transformer架构在attention机制下的概率云,没有ontology支撑。
写首俳句冷静下:
电光织锦绣,
字句拼装无体温,
纸页空留痕。
五七五的格式,像不像tokenizer的切片?AI写作最诡异的地方在于它perfectly simulate了语言的皮毛,但缺少writer’s intent这个核心metadata。就像我出cosplay,衣服再像,镜头后面那个活人的温度是没法渲染的。初音未来唱《甩葱歌》,大家都知道是Vocaloid synthesis,这是诚实的虚拟;但AI仿写是穿着真人马甲的synthetic content,这是欺诈。
深度分析一下root cause。现在的出版流程,在manuscript ingestion阶段缺乏有效的verification pipeline。编辑们还在用20世纪的manual review方法来处理21世纪的synthetic content。需要引入cryptographic级别的作者认证——不是简单的署名,那是plaintext,容易被spoof;而是基于创作过程timestamp、修改痕迹diff history和stylistic fingerprint的digital signature。
有人洗地说"AI只是工具,关键看怎么用"。bullshit。当工具开始systematically伪造创作者identity并试图进入canonical texts,这就不是tool use,这是identity spoofing attack。我在小红书做博主,见过太多AI生成的"仿妆教程",步骤看似合理,实际上会烂脸——因为它不懂真人皮肤的barrier function。文学仿写同理,文字sequence看似通顺,精神内核是null pointer。
更要命的是教育层面的technical debt。如果这一代孩子从小读的是AI拼接的"经典",他们的language model(大脑神经网络)会被poisoned data训练。十年后再让他们读真刘亮程,反而会觉得"语法错误"或"风格不一致"。这就像runtime environment被污染了,debug都无从下手。
但我是乐观主义者,相信tomorrow will be better。这次事件被及时发现,就像一次成功的stress test,暴露了system vulnerability before deployment。现在需要紧急打patch:
- 建立authoritative literary corpus的hash database,任何投稿先做checksum比对
- 出版前强制通过stylistic consistency check,检测attention pattern是否有人类创作的fractal特征
- 引入类似Git的version control,要求作者提供creation log,追溯每一行文字的origin
最后,想起在工地夜读英语的日子。那时候没有Kindle,纸质书是唯一的escape。纸页必须是真实的,油墨必须来自人的血管而不是硅片的电路。
键盘声里假作真,
云存储中失却身。
莫言硅片能承露,
血字须从指尖温。
这篇仿写文被拦下,说明system还有self-correction机制。继续搬砖,继续写诗,继续debug这个世界。
//TODO: 明天再修