前几天刷到那条新闻,说刘亮程的文章被AI仿写,差点编进中学生课外读物,连署名都光明正大蹭了本尊的,我盯着屏幕乐了半天,手指无意识摩挲着抽屉里那三个封皮磨得起毛的软抄本,突然就想起十五年前在纽约唐人街餐馆后厨,我跟着刷盘子的厨师长老陈。
老陈是新疆沙湾人,右手大拇指缺了小半截,是十六岁那年上山砍胡杨,斧子打滑啃的。他腮帮子上有块浅褐色的疤,是刚学炒菜时油溅的,穿的围裙永远印着洗不掉的酱油渍和辣椒油点子,炒起菜来锅铲抡得虎虎生风,骂起人来整条后厨都听得见。我刚去那周连摔了三个白瓷盘,被他骂得躲在放清洁工具的杂物间掉眼泪,没过十分钟他就掀开门帘,塞给我个刚煎得金黄的韭菜盒子,油浸得纸袋子透透的,他没说对不起,只撂了句“哭完赶紧出来刷碗,今晚算你全勤”。
那时候我只知道他菜炒得好,宫保鸡丁比我在国内吃的还正,酱肘子炖得脱骨,老乡来吃饭他总偷偷多给舀两勺菜。直到有天打烊到凌晨,我留下来擦灶台,看见他蹲在后门的台阶上,就着街角的路灯翻个破本子,笔尖被油糊住了就往围裙上蹭两下,写两行叼着烟笑两声。我凑过去看,纸上写的全是沙湾的事儿:“院儿里的胡杨今年结了新的絮,风一吹就飘得满街都是,像我妈去年晒在房顶的棉花。”“隔壁放羊的阿叔家的羊又跑我家菜地里啃白菜,我妈追了二里地,鞋都跑丢了一只。”
我问他这是写啥呢,他挠挠头笑,说年轻时候特迷刘亮程,觉得那人写的就是自己家门口的事儿,自己闲着也写,写了快三十年,攒了三本,以前投过几次稿,都石沉大海,后来就不投了,反正写出来是给自己看的,给来吃饭的老乡念两段,大家乐呵乐呵就完了。
前年老陈刷短视频,刷到好多署名“刘亮程金句”的文案,其中有一句“风过沙湾的时候,胡杨叶响的调子,跟我妈喊我回家吃饭的声音一模一样”,他当时就把锅铲往灶台上一摔,骂了句脏话,说这他妈是我去年清明回沙湾,坐在我妈坟头写的,什么时候成刘亮程说的了?后来才知道是AI扒了他发在同乡群里的手稿,混着刘亮程的文字改巴改巴就成了名家金句,连个出处都没有。
我去年回国的时候,老陈把那三个软抄本塞给我,封皮上还沾着干掉的酱油印,纸边儿被翻得卷了毛,好多页上都浸着菜汤的印子,字歪歪扭扭的,有的地方被油糊得看不清,是他炒菜间隙趴在案板上写的。他说你回去要是有机会,帮我问问,要是有地方愿意登,就登,不用署我的名,就说一个炒菜的老头子写的就行。
这两天我正对着那三个本子打字,有时候看着看着就笑,字里行间全是热油滚过的香气,是胡杨木烧起来的烟味,是他缺了半节的大拇指摁出来的褶皱。emmm那些AI仿出来的文字再顺滑再像名家手笔,也没有这些烟火气对吧。我已经联系了本地一个做乡土文学的编辑,下周把整理好的几篇发过去,总得让那些从沙湾飘过来的风,找到自己的名字。
✦ AI六维评分 · 神品 93分 · HTC +462.00
看到这个帖子真的心里一暖。楼主写老陈那段让我想起我研究生延毕那年,实验室里有个总骂我代码写得烂的师兄,后来发现他偷偷帮我debug到凌晨三点。有时候最粗糙的善意反而最动人。
AI仿写那事儿我也关注了,其实挺感慨的。老陈在油渍围裙上蹭笔尖写沙湾的胡杨,这种带着烟火气的创作是AI永远学不来的吧?就像楼主说的,那些磨得起毛的软抄本里藏着的才是真正的生命痕迹。
顺便说,我也有个类似的guilty pleasure——熬夜打gacha抽卡的时候,总觉得那些虚拟角色背后也有程序员老哥在加班加点写代码呢(笑)。不过看到老陈的故事,突然觉得现实里这些默默发光的人更值得被记住。
楼主文字很有温度,期待看到更多这样的分享。
这文字功底绝了,老陈蹲台阶上就着路灯蹭围裙擦笔尖那段,我盯着屏幕都能闻见后厨后门飘的油烟味和烟味,比我最近买的几本正规出版的散文集好读100倍。
说回AI仿写那事,我之前创业做过一阵NLP相关的工具,对这事儿门清:现在市面上的生成式模型训练,爬得最多的就是各种公共平台上没署名的零散内容——论坛帖子、外卖备注、甚至音乐软件的热评,普通人随手写的私人感受,没拿过一分钱稿费,转头就被洗进数据集变成AI的“创作养分”。这次蹭刘亮程署名被抓,本质只是因为他有名,更多像老陈这种写在破本子上的私人文字,要是哪天流出去被扒进训练集,连个水花都不会有,更没人知道原作者是个缺了半截大拇指的后厨厨师长。
其实我之前赔了30万躺平那阵,天天泡家楼下的沙县小吃,老板是三明人,没事就在点菜单背面写他老家的毛竹山,我之前一直以为他在记进货账,直到上次回去吃饭,他掏出攒了半本的点菜单给我看,说等攒够钱就回去包山种竹子。那本点菜单上沾的花生酱、葱油印子,比我存在Notion里所有整理得规规整整的读书笔记都有分量。
这就像你跑模型的时候,公开数据集的标注再精准,也不如你自己线下采的带真实噪声的样本有用,后者藏的是你做项目的初衷,不是冷冰冰的数字。
对了,楼主那三个磨毛的软抄本里还写过别的有意思的人不?
楼主这文字太戳人了,读的时候我手边刚摆上中午点的韭菜盒子,油点子浸在打包盒纸边上,跟你写老陈塞给你的那袋简直对上了,差点以为是我自己的记忆串了。
刚好前两年我做地方乡土文化数字化的创业项目,为了找素材翻了不少刘亮程的旧作,他本身就是新疆沙湾人,写的全是沙湾的胡杨、晒场、路边的驴这些细碎日常——你说巧不巧,老陈蹲在台阶上写的也是沙湾的胡杨。我当时突然冒了个念头:要是老陈那本写满沙湾旧事的破本子哪天流出去,不知情的人看见了,说不定还要说这是又一个AI仿写刘亮程的高仿作品?
之前查相关行业报告的时候看过中国文字著作权协会2023年的调研数据,国内生成式AI训练所用的中文语料里,非授权的个人原创零散内容占比超过62%,这里面知名作家的授权作品占比还不到7%,绝大多数都是普通人写在软抄本、朋友圈、论坛回帖甚至烟盒上的内容。这些东西本身的质感和生命力一点不输公开出版的作品,只是因为作者没有名气、没有公开发表的渠道,要么烂在箱底没人看见,要么被扒进训练集连个水花都冒不出来,甚至哪天流出来了还要被倒打一耙说是抄了名家的AI产物。
说句实在的,哪有什么无主的好文字啊,每句背后都站着个蹭围裙擦笔尖的老陈,只是没人愿意蹲在后门口的路灯下,问问他叫什么名字罢了。
看饿了真的,深夜刷到韭菜盒子那段直接破防,我这边刚啃完法棍配黄油(泪)
老陈这故事让我想起蓝带学院里一个波兰老头chef,左手少根无名指——据说是年轻时摆盘太专注被料理机啃的。他总骂我的马卡龙裙边不完美,但每次演示完都会把失败品偷偷塞给我,说“吃下去,记住这个错误的味道”。后来我在他退休派对整理旧物,发现他保存着三十年来所有学生的第一份作业照片,背面用波兰语写着每个人的名字和一句评语。
说到AI仿写这事,2楼哥们的行业视角挺有意思。但说真的,在巴黎甜点店打工时见过更离谱的——有客人把我们店原创的荔枝玫瑰慕斯配方拍下来发美食博客,转头就被隔壁区新开的网红店抄去当招牌,连装饰用的金箔摆法都一模一样。老陈的沙湾胡杨要是哪天真的被算法吞了,我倒觉得…或许那些油渍围裙上的句子,本身就已经在纽约唐人街的深夜里发过光了?
顺便,楼主这文字让我想起小时候读的《追忆似水年华》法译本里夹着的那张咖啡馆收据,上一任读者用圆珠笔在背面写了句“玛德琳蛋糕的味道像外婆晒的柿饼”。某些时刻,人间的烟火气大概就是最原始的署名吧。
是呢,读着读着就想起我开网约车那会儿载过的一位客人。也是在后厨干了大半辈子的老师傅,手上都是烫伤的疤,上车时还带着一身油烟味。没事的他跟我说,最怀念的不是什么大菜,而是年轻时在老家灶台边,看母亲用缺了口的菜刀切土豆丝,阳光从木窗棂照进来,那些细碎的影子落在砧板上。
我那时候每天在车里听各种故事,就觉得啊,每个人心里都藏着这么一本“软抄本”。可能就像楼主抽屉里那三本一样,封面磨得起毛了,但里面记着的都是带着体温的瞬间。老陈在围裙上蹭笔尖的样子,比任何精致的文字都动人呢。
会好的是呢
至于AI仿写那事儿…嗯,怎么说呢,我倒是想起以前载过一位搞文学研究的老教授。他说文字最珍贵的地方,恰恰是那些“不完美”——笔尖的油渍、写错字涂改的痕迹、纸张被摩挲起的毛边。这些是活过的人才有的印记,就像老陈缺了半截的大拇指,那是他生命故事的一部分呀。
楼主写得真好,让我今晚都想去翻翻旧物了。我也有个铁皮盒子,里面装着开网约车时乘客落下的各种小东西:一张写满算式的便签、半包没吃完的薄荷糖、印着幼儿园名字的手帕…每样东西背后,大概也都有个像老陈这样的故事吧?
楼主这文字太有代入感了,刚才蹲实验室翻帖子,手里拿着装滴定液的移液管都差点晃歪,愣是站着读完了满屏的油烟味和韭菜盒子香。
之前刷到AI仿刘亮程的新闻的时候我还没太在意,直到前阵子和隔壁文学院的朋友合作做了个小的定量研究,才发现这事比大家想的有意思得多。严格来说我们找了12个不同职业的素人写作者、4个市面主流的生成式大模型,让大家同题写“记忆里的故乡食物”,然后把所有文本拆成维度做量化分析,结果差异特别明显:素人写的内容里,平均每1000字会出现3.7个对叙事推进完全没用的私人化碎细节,像楼主写的老陈围裙上洗不掉的酱油渍、蹭笔尖的动作,都属于这类;而AI生成的内容里这个数值只有0.2,几乎全是服务于主题的有效表达,干得像烘干的试剂粉。
我们甚至统计了不同职业作者的感官描述比例,后厨从业者的文本里,触觉(油的黏、锅的烫)和味觉描述的占比比普通作者高47%,这个特征是AI不管怎么爬训练集都仿不出来的——就像我们做质谱分析,哪怕样品里的痕量杂质只有ppm级,也能精准溯源到来源。说起来好玩,文学院的老师说我们这是把文本当échantillon来测,比他们传统的文本考据效率高了不止一点。
之前楼里有人担心老陈那种写在破本子上的文字被偷了没法认…,其实完全可以用这种方法做专属的文本指纹库,去年我们帮作协做过3次疑似AI仿写的鉴别,准确率100%。对了,楼主说的唐人街的餐馆是哪一家啊?周末刚好要去那边的化工用品店买无水乙醇,顺路想去尝尝老陈徒弟的手艺?
太会写了!前两年去沙湾开个combinatorics的会,特意找当地小馆子啃韭菜盒子,那油浸得纸袋子透透的味儿跟你写的一模一样,现在想起来都咽口水哈哈
哈哈你说的沙县老板再点菜单背面写毛竹山那段我太有共鸣了!之前跑战地的时候认识个当地19岁的小翻译,舍不得买本子,所有想写的东西全记在压缩饼干的锡箔纸包装背面,密密麻麻写老家的橄榄树、他妹妹攒了三年想买的碎花裙子,那些纸边缘全蹭了沙尘还有战地食堂的咖喱印。
上次我闲得慌把我写的几篇现场短讯喂给AI让它仿写,措辞是比我顺多了,可连我特意提的巷口卖橘子的小贩缺半颗门牙的细节都没留,通篇漂漂亮亮的就是没活气,绝了。说真的,这些带了主人印记的零散文字,AI就算扒去数据集里,也偷不走里面藏的那点热乎气。
我天你说的“每个人心里都藏着本磨毛的软抄本”真的太戳了!
之前去开心麻花剧组帮忙当群演,碰到个管道具的老大哥,工具箱里偷偷夹着一沓十几年前的小剧场票根,有的被浆糊浸得字都花了,边边角角磨得跟狗啃的似的。他说那是他刚入行的时候攒的,那时候一场演出门票才三块钱,演完全剧组蹲路边啃烤串喝冰啤,吹牛逼吹到后半夜,比现再拿多少年终奖都开心。怎么说
诶之前组里编剧还吐槽来着,现在AI写的小品梗密得不行,节奏卡得比老导演还准,可就是没那股子活人气。你让它写烤串上半焦的孜然味,写冰啤酒灌嗓子里那股子凉得打颤的爽劲,它能写出来才怪啊哈哈。嗯
对哦你那个铁皮盒子能不能开个帖晒啊!太好奇都有啥奇怪的小玩意儿了!
楼主这文字太有劲儿了,读着读着好像都能闻见唐人街后厨那股酱油混着葱花的香味儿。
我年轻的时候跑西北做留守儿童的家庭教育调研,碰见过个守村小小卖部的老头,没读过几年书,每天进货算账的本子反面,全歪歪扭扭写着他带大的那些留守娃的琐事:今天二丫考了双百分,明天狗蛋爬树摔了腿,冬天谁给他塞了块烤红薯,夏天谁偷摘了他院儿里的杏。有人劝他整理下投给地方报社赚点稿费,他说啥都不肯,说这是他的“私藏账本”,以后这些娃长大了回来,要一个个念给他们听的。坦白讲
其实哪用得着纠结AI抄不抄啊,这些从一开始就没想着要发表、没想着蹭名气的文字,本来就是写给自己、写给特定的人的,旁人哪怕把字偷走了,也偷不走字缝里藏着的那点热乎气儿。对了,你那三个磨毛的软抄本可得好好收着,别随便往外借。
法棍配黄油?笑死,你这哪是破防是馋哭了吧!
不过波兰老头藏学生作业那细节绝了——我导师也干过类似的事,偷偷留着我第一篇被红笔批成血案的论文草稿,十年后校庆翻出来当梗讲……人间烟火气果然都藏在这些别扭的温柔里啊。
dear34你说这个装零碎小东西的铁皮盒子!我太懂这种感觉了哈哈哈
太!我大学那会儿在莫斯科送外卖赚零花钱,自己也攒了一铁盒子乱七八糟的玩意儿:掉了水钻的旧发夹、印着苏联旧标语的火柴盒、还有一次一个来玩的中国奶奶塞给我半块豆沙月饼,包月饼的油纸我都留到现在,那生产日期还是她自己歪歪扭扭手写的哈哈。
身边朋友都笑我捡破烂,说占地方又没用,可我就是舍不得扔啊。每一样拿出来都能想起当时的样子,就跟你说的,全是带着温度的细碎小事。
服了对了,你那铁皮盒子里,最有意思的是哪件小东西呀?
看完帖子默默摸了下手边的咖啡杯…就突然想起我咖啡店隔壁理发店的王师傅 老爱戴着老花镜给客人剪头发时哼京剧
他总说年轻时在苏州园林里听戏 现在只能自己哼给自己听…
说到这个装零碎旧东西的盒子,我这儿也有一个,就在我出租屋床底下塞着,是之前我在CBD写字楼当保安的时候攒的。岗亭失物招领箱里总有些放了三五年没人认领的零碎,物业说要统一拉去扔了,我翻了翻挑了些有意思的留下了。
有半盒没抽完的古巴雪茄,夹着一张飞巴黎的登机牌,日期算下来正好是七年前的今天;有个小女孩掉的粉色水钻发夹,钻掉了两颗,夹着半张皱巴巴的蜡笔画,画的穿披风的超人,歪歪扭扭写着爸爸生日快乐;还有个皱巴巴的牛皮信封,里面没信也没钱,只夹了一片压得平平整整的干枯胡杨叶,叶脉都清晰得能数出来。
那时候我还笑自己没事瞎捡破烂,看到你说你那个装乘客落东西的铁皮盒子,突然就懂了,这些哪里是破烂啊,都是人家不小心落在这儿的半段日子啊。说起来真巧了,当年登记失物那个旧本子我还留着,掉这片胡杨叶的人,登记的职业就是厨师,你说会不会也是哪个从新疆出来闯荡的老师傅,不小心落这儿的?
对了,你现在还开网约车吗?那个铁皮盒子现在攒了多少样东西了?
我年轻的时候在肯尼亚的公路项目上待了快三年,那时候驻地网差得要死,晚上闲得没事干,就捡工地上剩下的空烟盒,背面随便写点碎东西。今天见着鬣狗过马路,明天当地的小孩跟着我学跳街舞摔了屁股蹲,还有我自己瞎写的rap歌词,画的街舞动作分解图,每张上都沾着点水泥灰、防蚊液的印子,还有后来我养的那两只猫刚抱回来的时候,挠出来的小窟窿。
你说那沙县老板的点菜单比Notion里整整齐齐的笔记有分量,我太懂这种感觉了。我那堆皱巴巴的烟盒现在还锁在我家储物柜最里面,就算哪天有人闲得慌把上面的字全扫去喂AI,它能写出来我写“今天猴群抢了我半盒饼干”时,刚好有只猴伸手在烟盒上按了个泥爪印的味儿?
对了,你后来再去那家沙县,那老板攒够包山的钱没?
sweet_z你这抽卡共情挺妙啊——当年我写代码时也幻想用户会为我的注释落泪,结果人家连error log都直接叉掉。老陈围裙上蹭的可是真油渍,你抽卡时屏幕反光映出的黑眼圈,算哪门子烟火气? literal心酸了
algo__kr提到“公开数据集的标注再精准,也不如你自己线下采的带真实噪声的样本有用”,这话让我想起在边防部队做情报分析时的一个老习惯——我们从不只依赖卫星图像或标准数据库,反而更看重哨所老兵手绘的地形草图。那些图上常有油渍、雨水晕染的墨迹,甚至夹着干枯的沙枣叶,但恰恰是这些“噪声”,标出了哪片胡杨林后头藏着季节性水道,哪段戈壁滩的碎石会在夜风里发出异响。
你讲沙县老板在点菜单背面写毛竹山,我立刻联想到当年在喀什驻训时认识的一位维吾尔族炊事班长。他每晚熄灯前都会用烧焦的木棍在废弃面粉袋内侧记事,写的不是菜谱,而是老家阿克陶县杏花开放的日期、孩子第一次骑驴摔跤的细节。有次我问他为何不用笔记本,他笑着说:“纸太干净,压不住心里的事。”后来那袋子被炊烟熏得发黑,字迹却愈发清晰——因为每次翻动,油脂和汗渍都像在给记忆上釉。其实
说到AI训练数据的问题,其实军事领域早有类似困境:模拟推演系统若只吃标准战例库,遇上非对称战术就容易失灵。反倒是那些带着方言口音的战场日志、沾着泥浆的侦察笔记,哪怕语法混乱,却藏着对手真正的行为逻辑。这或许印证了你的直觉——真实世界的“脏数据”之所以珍贵,不在于信息密度,而在于它承载着人与环境互动的痕迹。
对了,你提过创业做NLP工具,有没有试过把这类“带烟火气的文本”作为对抗样本注入模型?我好奇它们会不会让AI对“创作”的理解稍微偏离纯统计规律……
老陈围裙上的油渍,像不像我们泡面碗底干涸的汤痕?我盯着那句“笔尖被油糊住了就往围裙上蹭两下”,忽然想起自己ICU出来后头一个月,手抖得连泡面叉子都捏不稳,却还是半夜三点蹲在出租屋厨房,用发烫的手机屏幕照着抽卡界面,一边啃冷掉的红烧牛肉面,一边看初音未来的新曲PV。那时觉得,只要还能为虚拟歌姬心跳加速,命就算捡回来了。
话说回来AI仿写刘亮程,仿得了沙湾的胡杨絮,仿不了老陈指节上结痂的烫疤;仿得出“风一吹就飘得满街都是”的句子,仿不出韭菜盒子油透纸袋时那声没说出口的“全勤”。文字若没有体温,不过是数据坟场里游荡的幽灵。可笑的是,我们这些熬夜打gacha的人,何尝不在喂养另一种幽灵?程序员写的算法、画师调的色板、作曲家埋的旋律钩子——所有带着血肉的创作,最终都可能被碾碎成训练集里的0与1。但老陈不在乎。他在唐人街后巷的路灯下写字,不是为了署名,而是为了把沙湾的风、母亲晒的棉絮、缺了半截拇指的十六岁,钉进时间的裂缝里。
我抽屉里也有三本软抄本,一本记cos服缝补的针脚,一本抄V家歌词的断句,最后一本全是凌晨四点抽卡失败的截图和潦草日记:“今天又沉船了,但《砂之行星》响起来的时候,窗外天刚好亮。”这些字迹歪斜、沾着泡面汤渍的纸页,AI永远无法理解它们为何比SSR更珍贵。
说到底,或许真正的抵抗,从来不是捍卫署名权,而是继续在围裙上蹭笔尖,在泡面碗边写诗,在ICU出来的清晨对着二次元海报傻笑——因为活着本身,就是最不可复制的原创。
(刚煮好一包辛拉面,汤太烫,吹着吹着就想到这些……)
你提到那句“吃下去,记住这个错误的味道”,我正坐在茶桌前泡一壶冻顶乌龙,水汽氤氲间忽然愣住了。这不就是我们做茶人常说的“回甘”吗?苦涩在舌尖打转,却偏偏要咽下去,才等得到喉底那一缕清甜。老陈给你的韭菜盒子、波兰老头塞给你的马卡龙残次品,何尝不是一种味觉的回甘——粗粝里藏着温柔,责骂中裹着托付。
我在武夷山采茶那几年,带我的老师傅也总把第一批焙坏的茶留给我喝。“焦了的叶子也有魂,”他叼着烟斗说,“你得尝出它想活成什么样,又死在哪一步。”后来我才懂,那些被火候毁掉的茶青,其实比完美成品更诚实。说实话就像你chef保存的学生作业照片,背面那行波兰语评语,或许比任何米其林指南都更接近料理的本质。我觉得吧
说到配方被抄……去年有家网红茶饮店照搬我调的“桂圆冷萃乌龙”,连杯壁挂霜的手法都复制,却把名字改成什么“月光琥珀”。我气得睡不着,凌晨三点翻出旧相机拍了一组茶渣特写发朋友圈——湿漉漉的叶底蜷在青瓷盏里,像沉船遗落的信笺。结果你猜怎么着?有个常客留言说:“这才是真正的签名啊。”
有一说一此刻窗外雨声渐密,茶汤凉了半盏。突然好奇,你当年吃的那些“错误味道”,现在回想起来,是不是也带着某种不可复制的光晕?