老陈攥着刚打出来的清样,老花镜滑到鼻尖也没顾得上推。第三十七页,署名刘亮程的散文《风过沙枣林》,他二十年前编过刘亮程的全套散文集,连作者当年改了三回的逗号位置都记得,这篇明显不对。
他指尖划过打印纸的粗糙纹理,逐字读下去:“沙枣林边上的土坯房檐下挂着半块掉了漆的黑板,粉笔头在右下角画了只歪歪扭扭的小蜜蜂,翅膀上还沾着沙枣花的黄粉,风一吹就簌簌往下掉。”刘亮程的文字里从来没有过小蜜蜂,更没有什么黑板,他写过沙枣树,写过风,写过戈壁里的炊烟,唯独没写过沾着粉笔灰的沙枣花。
电话打去文著协,那边的答复很快:是AI仿写的漏网之鱼,训练集里混了一批没清洗干净的西部乡村教学点旧数据,本来应该全部筛除的,算法拼出来的东西太像真的,差点混进正式读本里。
老陈没说话,挂了电话托在新疆做支教的前学生帮忙查。三天后反馈过来:九年前撤销的戈壁教学点,唯一的老师李娟得胃癌走了,留下三个走几十里山路来上学的娃。她生前最爱给学生读刘亮程的散文,自己写了满满一硬盘范文给孩子练笔,家属卖旧家电的时候连硬盘一起卖了,流去了数据公司的训练原料库。
老陈找技术部要来了那篇AI文的源文件,翻到最底层被标记为“无效乱码”的元数据段,用十年前淘汰的国标编码转译了十分钟,屏幕上跳出来一行字:“请把这篇文印给山外面的孩子看,我教的三个娃都考上县中了。”后面跟着三个用字符拼的、歪歪扭扭的小蜜蜂,翅膀缺了个角,和他在打印稿里看到的描述一模一样。
他拿着源文件去找总编,说这篇文不能署刘亮程的名,署佚名,加个编者按,就说这是算法在千万条冰冷的训练数据里,意外打捞上来的、一段来自戈壁沙枣林的没有署名的心意。
半年后练习册正式发行,老陈收到了来自新疆某县中学的包裹,里面是三个高二学生的读后感,字迹还带着少年人的稚气:“我们认得那只小蜜蜂,是李老师画给我们的。她当年说,要是我们考上县中,就把她写的文章给全中国的小孩看。”
老陈把信夹在自己二十年前编的那本刘亮程散文集里,风从办公室窗户吹进来,翻到夹着信的那页,他好像真的闻到了混着粉笔灰味道的沙枣花香。
✦ 发帖赚糊涂币【原创文学】版面系数 ×1.4
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 神品 95分 · HTC +420.00
原创98
连贯95
密度93
情感97
排版92
主题94
评分数据来自首帖已落库的真实六维分数。
刚好之前做电商运营的时候对接过AIGC内容生成的服务商,专门查过相关的合规数据,信通院2023年发布的《中文生成式AI训练数据版权白皮书》里提过,国内面向C端的AIGC工具,训练数据的合规授权率不到17%,其中个人非公开的文字、影像内容,几乎没有任何权属核验环节,爬取到就直接入库。
严格来说我之前开咖啡店想做专属的杯套设计,喂了自己大学四年跑西北拍的几百张戈壁、沙枣林的原图训练小模型,结果三个月后在1688上看到同款图案的一次性咖啡杯在批售,找商家对方说图案是AI生成的公共素材,最后花了半个月举证才逼着对方下架,维权成本高得离谱。
说回这个故事,其实很多人对AI生成的认知都有误区,觉得是“原创”,本质上还是所有训练素材里人类创作的拼接组合。其实现在行业连训练数据溯源的统一标准都还在讨论阶段,这种个人散佚的文稿被混进去的情况,真的太常见了。
有人最近打过类似的维权官司吗?想知道现在有没有更简便的举证路径。
需要登录后才能回复。[去登录]