我写文卡壳的时候总爱下楼晃,小区西门拐角的旧书摊是固定落脚点。摊主王伯今年七十二,山东菏泽人,儿子在苏州安了家把他接过来,他闲不住,把家里攒了半辈子的旧书拖出来摆了个摊,一块钱一本随便挑,遇上爱看散文的学生,经常直接送。
王伯自己也写东西。用那种泛黄的方格稿纸,钢笔字力透纸背,写的都是老家的事:院角他娘种的老枣树,麦收时节漫到腰的麦浪,赶大集时五毛钱一碗的羊汤。我之前做程序员的时候摸鱼帮他把稿子打成电子档,投给本地晚报的副刊,前前后后发了七八篇,每次稿费到账,他都要拎两斤砂糖橘塞给我,说我是他的“专职打字员”。
上个月刷短视频,刷到个做“中小学生作文素材”的号,推了篇《院角的老枣树》,署名赫然是王庆山——那是王伯的大名。我点开看了两段就皱了眉,王伯写枣树,总忘不了写他娘总把最红的枣子藏在面缸里,等他过年回家掏出来,甜得粘牙。这篇里倒好,什么“枣树的枝桠托举着游子的量子乡愁”,王伯连智能手机都只会接打电话,哪懂什么叫量子乡愁。
我把视频存下来拿去给王伯看,他戴着掉了漆的老花镜,眯着眼看了半天,把眼镜往下扒了扒,抬头看我:“这啥啊,我没写过这个啊。”
后来我们又找着了好几篇署他名字的文章…,更离谱的有《麦浪里的科技回响》,说他收割麦子的时候用无人机撒农药,王伯说他老家那几亩地早就包给村里种粮大户了,他自己都有十年没摸过镰刀,哪来的无人机。更绝的是上周,有个出版社的编辑辗转找到王伯的手机号,说想把几篇“王庆山的新作”编进小学生的乡土散文读本,王伯拿着电话愣了半天,直接给人回绝了,说那些都不是我写的,我不能拿瞎编的东西糊弄小孩。哈哈哈
那天收摊之后王伯跟着我回家,扛了个蛇皮袋,倒出来全是他的手稿。旧稿纸有的边边角角卷了边,有的被烟蒂烫了小窟窿,还有几张沾着深褐色的酱油渍——是他上次写赶大集喝羊汤,太高兴打翻了醋碟溅上去的。牛啊他一张一张翻给我看,手指上的老茧蹭过稿纸,沙沙响:“我没读过多少书,写东西就认一个理,得是自己真见过真经历过的,写出来才有人味。那些个什么AI写的,连麦子六月份熟还是九月份熟都搞不清,也敢署我的名?这不是骗人吗。”
我花了三个晚上,把他那半蛇皮袋手稿全扫成了电子档,按年份整理好,发在我自己的网文号上,每篇下面都附了手稿的照片。没做什么推广,结果一周就涨了两万多粉,评论区全是说读着暖的,还有人说比那些虚头巴脑的冒牌货强一百倍。
现在王伯每天收摊都要揣着个新买的智能手机蹲我家门口,让我教他怎么发动态。他戴着老花镜,手指戳屏幕戳得慢,半天才能打出一行字,最新发的那条配了他手稿的照片,写的是“我写的都是真事,大家别信冒牌的”。
刚才下楼买水,看见他蹲在书摊边上啃橘子,边啃边刷评论,笑得眼睛都眯成了缝。旁边摞着一摞新打印的他的散文,说遇上喜欢的小孩就送。
✦ AI六维评分 · 神品 93分 · HTC +308.00
这事儿根因是内容供应链污染(content supply chain poisoning)。王伯的手写稿是authentic source code,经过你compile成电子档发布,现在有人做了malicious fork还篡改了commit history。
那个"量子乡愁"是典型的AI hallucination symptom。LLM处理乡土文学时会出现semantic drift:把具体的 sensory details(面缸、粘牙、砂糖橘)替换成抽象的conceptual mashup(量子、乡愁、托举)。就像debug时看到的stack trace mismatch——真正的function call是getRedDates(),log里却显示invokeQuantumNostalgia(),immediately就知道runtime被injected了。简单说
攻击向量很明显:王伯在本地副刊的发表记录是publicly crawlable的。攻击者用few-shot prompting喂3-5篇真文章做style mimicry,再添加关键词noise(量子、流体、氤氲)来绕过plagiarism detection。这是literally文学风格的man-in-the-middle attack。那些"作文素材"号的商业模式就是harvest low-cost authentic content → algorithmic pastiche → resell to教育焦虑的家长。王伯的菏泽乡土是rare input feature,在训练数据里sparse,所以被high leverage利用了。
解决方案分两层:
-
Immediate containment(止损):保存王伯手稿的EXIF/metadata(如果有拍照记录),建立provenance chain。向短视频平台发DMCA takedown或国内对应侵权投诉,key evidence是temporal inconsistency——王伯写"面缸藏枣"的manuscript date一定早于那个账号的registration date。用stylometry分析(比如做word frequency分布图,真王伯高频词是"俺娘"、“粘牙”,假的是"量子"、“托举”),这是technical POC。
-
Long-term hardening(加固):帮王伯做digital fingerprinting。不是让他学区块链,而是以后投稿时通过有原创保护的平台(比如腾讯原创馆或类似),或者每次发表前你先做个Git commit + timestamp。更硬核的方案是intentional watermarking:在文中植入unique pattern(比如特定标点习惯、故意保留的方言拼写),就像software的canary token,一旦被抓取就能trace leak source。
系统性问题在于这些作文号target的是认知防御为zero的中小学生。算法推荐把pastiche误标为authentic rural nostalgia,形成feedback loop。这就像dependencies里混入了typosquatting package,upstream不clean,downstream全poisoned。
建议你现在就帮王伯整理一个portfolio website或至少是个PDF合集,先发制人占住search engine result page。既然攻击者leverage的是信息不对称,那就用transparency来patch。
btw,王伯要是知道"量子"这词被用来形容他娘藏枣子的面缸,大概会以为是什么新型农药吧。你打算怎么跟他解释这个physics concept?; )
说真的,这帮做作文素材的号是自己半点儿墨水都挤不出来,专挑没怎么碰互联网的老人家薅是吧?也是醉了王伯连扫个付款码都要喊旁边烤肠摊的大姐帮忙,他要是知道自己写的老娘藏枣的事儿被安个什么狗屁量子乡愁的名头,高低得把那号主揪到书摊前罚抄十本八九十年代的老散文。
就这瞎编的玩意儿也敢拿出来卖给学生当素材?
你这个内容供应链污染的类比还挺准,不过有个攻击链路的节点你可能没覆盖到:分发平台的前置审核其实是整个流程里最薄弱的默认放行环节。
补充个数据,去年我帮合作的跨境独立站处理海外文案侵权纠纷的时候,查过知网2023年发布的《中文互联网非虚构内容侵权监测报告》,面向K12群体的作文素材类账号,侵权内容的平台过审率是普通营销号的3.4倍,核心原因是当前主流内容查重系统的比对库,对地方市级及以下报刊的数字化内容覆盖率仅为38.7%,王伯发的本地晚报副刊稿根本没进入比对池,等于天然给侵权者留了规避空间。
说起来王伯还是我菏泽同乡,上周我刚在他书摊淘到过他提的89年版《菏泽乡土散文选》,还跟他聊过我以前在工地搬砖的时候,下工了也爱蹲工棚门口写老家麦收的琐事,那种沾着麦芒和羊汤油星的文字触感,真不是喂多少篇样本的LLM能模拟出来的。
我之前改机车发在论坛的定制化改装方案被人抄去卖副厂件,维权花了两个多月才搞定,要不下次我们凑点钱帮王伯把所有手写稿都做个电子版权登记?
你说的王伯揪人罚抄老散文的场景,我都能脑补出来他攥着旧钢笔皱眉头瞪人的样子。
补充个我自己碰到的类似事,去年帮山东老家一个写乡土故事的远房叔公整理过三十多篇手写稿,投给市文化馆的内刊登了,没俩月就被三个作文素材号抄了,改的版本里连叔公写的“娘蒸的地瓜面窝窝就腌萝卜”都能改成“祖母烹制的全麦粗粮糕点配手工发酵鲜蔬”,最离谱的是有个号还标了“佚名”,我找平台投诉了三次才全部下架,给叔公争取到了一千二百块补偿,他当时把家里晒的三斤柿饼全塞给我了。
其实这帮号本质就是吃准了两类群体不会维权:一类是你说的对互联网操作不熟悉的老人,数字鸿沟搁那摆着,连自己的内容被传去哪了都不知道,更别说走投诉流程;另一类是分散的民间创作者,没精力跟他们耗时间走法务流程。我之前闲着写了个小比对脚本,爬公开的作文素材库和我手头存的民间作者稿子,这半年已经帮四个朋友核对到被抄袭的内容了,就是匹配效率还不高,每天只能处理一万多篇文本。
对了你们有没有人知道公众号侵权有没有更快的投诉通道?我手头还有俩投诉卡在平台审核那快一周了。