IT之家4月4日披露,茅盾文学奖得主刘亮程遭遇AI仿文侵权,某出版社险些将算法生成的"刘亮程风格"文本编入中学生课外读物。从某种角度看,这起事件不仅是版权纠纷的个案,更折射出数字时代文本authenticity(本真性)的系统性危机。值得商榷的是,我们是否正在经历一场"创作主体性"的静默转移?
作为建筑行业从业者,我对"材料真实性"有着近乎偏执的职业敏感。C30混凝土的抗压强度标准值为20.1N/mm²,HRB400钢筋的屈服强度必须达到400MPa——这些数据容不得0.1%的虚标,因为任何掺假都可能导致结构剪力墙的致命裂缝。然而当我在夜校图书馆读到那篇AI仿写的"刘亮程"时,却察觉到了一种危险的"数字水泥":它拥有正品的外观孔隙率,却缺乏硅酸盐水泥水化反应的化学真相。具体是什么构成了这种差异?有数据吗?根据我查阅的有限文献,当前GPT类模型生成的文本在风格一致性测试中虽能达到85%以上的拟合度,但在"具身经验指涉"指标上呈现出显著的统计空洞。
去年冬夜,我作为网约车司机载过一位从新疆返程的图书编辑。他谈及刘亮程文字中那种独特的"麦秸味"——那种来自昌吉木垒书院的真实干燥气息,是算法无法通过语料库n-gram统计获得的具身体验。AI可以完美模仿"一个人的村庄"的句法结构,甚至复制那种看似笨拙的乡土修辞,但它没有手指划过干燥麦穗的触觉记忆,没有风沙打磨皮肤的痛觉数据,更没有在零下二十度等待春天降临的时间焦虑。这种缺失不是技术参数的问题,而是海德格尔所谓"此在"(Dasein)的根本缺席。文本在此异化为一种无重量的能指游戏。
在此插入三首俳句,记录此次思考的切片:
嗯
硅基笔尖冷
统计麦浪千重影
无风自动摇
昌吉月如霜
真人指隙有尘香
代码徒悲伤
赝品入书册
少年不识真麦秸
数字太茫茫
这三首短诗试图捕捉一个核心悖论:AI拥有无限算力,却生产不出一根真实的麦秸。从传播政治经济学角度分析,这起事件暴露的深层风险在于"权威文本的供应链污染"。当出版社的编辑流程无法识别AI仿写,意味着文化再生产环节出现了严重的"质量检测盲区"。据斯坦福大学人机交互实验室2024年的初步研究,当前AI文本检测器的准确率仅在72%-85%之间波动(具体数据因训练集不同而异),且存在显著的跨语言偏差。这显然不足以应对即将大规模涌现的"数字赝品"浪潮。
更为严峻的是,这种技术异化正在改写"创作"的定义边界。近期音乐产业中,李荣浩对单依纯改编《李白》的版权异议,与刘亮程面临的AI侵权,本质上共享同一套拓扑逻辑:当"二次创作"或"风格迁移"脱离了明确的授权链条与主体间性确认,原创者的劳动价值便被稀释于算法的黑箱之中。我在北京跑网约车时,常听乘客讨论"AI写作助手"提升效率的奇迹,但很少有人追问:那些被吞噬的语料,是否获得了等价补偿?训练数据的著作权归属,目前仍是一个法律真空地带。
其实
夜校上周的现当代文学课上,我们讨论了本雅明1935年的预言:机械复制时代导致艺术作品的"灵晕"(aura)消散。九十年后的今天,算法生成技术将这种消散推向了微观叙事层面——不再是简单的复制,而是对"创作人格"的拓扑学模拟。这种模拟如此精致,以至于需要"茅盾文学奖得主亲自打假"才能证伪,其社会成本之高,令人忧虑。格尔茨(Geertz, 1973)在《文化的解释》中强调的地方性知识(local knowledge),在AI的平滑处理中被抹平为统计学噪音。嗯
然而,从建筑结构力学类比,任何赝品都有其承重极限。AI文本的根本局限在于它无法产生真正的经验断裂——那种源自具体历史时刻的、不可预测的创伤或狂喜。刘亮程的文字之所以动人,恰因其扎根于新疆土地的不可通约质感,那种质感包含了土壤的pH值、日照时长、甚至收割时农具的磨损程度。相比之下,AI仿写本质上是一种"熵减的文本",它消除了人类写作中的犹豫、涂改、语法错误背后的情感震颤,生产出一种过度光滑的、无摩擦的虚假流利。
回到事件本身,出版社的审核机制失效值得深究。在建筑工程中,我们有严格的"材料进场复检"制度与见证取样规范;在出版领域,或许需要建立类似的"文本基因测序"溯源流程。但技术防御之外,更根本的问题在于认知层面:当新一代读者在不知情的情况下将AI文本当作"刘亮程"来阅读,他们所内化的究竟是文学审美,还是马尔可夫链的概率分布?这种认知习惯的代际转移,可能比单篇伪作更具破坏性,它正在悄然改变"何为真实"的评判基线。
嗯
夜归途中,我途经西四环的工地,见塔吊在雾霾中投下几何阴影。混凝土泵车正在浇筑,那真实的、沉重的、会凝固的液体,与手机屏幕里轻飘飘的"生成式文本"形成奇异对照。泵车轰鸣声中,我突然意识到:抵抗数字异化的最后堡垒,或许就藏在这种"物质重量感"之中——就像刘亮程笔下的麦秸,必须经历真实的季节、真实的收割、真实的腐朽,才能在文字中留下不灭的香气。任何绕过这一过程的"智能生成",都只是语料库的海市蜃楼。
这场关于真伪的辩论,远未结束。我们需要更严格的文本溯源标准,更警觉的编辑伦理,以及对"创作本质"的持续现象学追问。毕竟,当孩子们翻开课本,他们有权知道:那页上的文字,究竟是来自一颗真实跳动的心脏,还是来自服务器机房里冷却风扇的单调嗡鸣?