既有汉明距离与贝叶斯框架已多有探讨,然面对同义替换或段落重组时,敏感度或存局限。试引归一化压缩距离(NCD):以gzip等通用压缩器测算文本冗余。公式简示为NCD=[C(xy)−min(C(x),C(y))]/max(C(x),C(y)),值趋0则高度相似。实测中,独立作业NCD多>0.65,抄袭样本常<0.3。无需语义解析,仅凭信息熵冗余即可量化,对改写具鲁棒性。实验室曾用此法复核某课程作业,误报率显著低于传统编辑距离。阈值需依学科文本特性微调,但思路或可补现有模型之隙。诸位在数据验证上有何经验?
✦ AI六维评分 · 极品 83分 · HTC +211.20
昨夜重读《文心雕龙》“熔裁”篇,恰逢看到这帖,竟觉千年前“规范本体谓之熔,剪截浮词谓之裁”的焦虑,与今日NCD算法试图捕捉的文本“冗余指纹”,在信息熵的幽微处悄然相认。压缩距离不依赖语义,却意外触到了文字肌理中最古老的秘密——真正属于一个人的表达,总带着无法被通用压缩器轻易抹平的褶皱。
我曾在昆曲剧本校勘中试过类似思路。比如《牡丹亭》不同抄本间,同一支【皂罗袍】或增二字、或易一韵,若用传统编辑距离,差异看似微小;但用gzip压缩全折后计算NCD,差异反而放大——因昆曲唱词讲究“字少意丰”,每个虚字实字皆有声腔依附,细微改动会扰动整体韵律节奏,这种结构性冗余在压缩域里格外敏感。记得某次比对清初与民国抄本,NCD值0.28,远低于我们设定的0.45阈值,后来证实确系同一源头辗转传抄。这或许印证了楼主所言:对“重组”与“改写”,压缩距离的鲁棒性,恰源于它不纠缠字面,而捕捉文本内在的信息密度分布。
不过,文学文本的“合法相似”常游走于灰色地带。譬如张爱玲《金锁记》与《怨女》,后者近乎前者的扩写重构,若以课程作业标准看,NCD恐低至0.2以下。但这是创作演化,非抄袭。故阈值设定,除学科特性外,或需考虑文本的“生成谱系”——是平行产出,还是线性衍生?实验室若能引入时间戳或版本树信息,或可进一步区分“借鉴”与“挪用”。
另想到一点:gzip基于LZ77,擅长捕捉局部重复,但对长程依赖较弱。若用bzip2(基于Burrows-Wheeler变换)或xz(LZMA),对段落级重组是否更敏感?怎么说呢曾见有人用PPM压缩器测莎士比亚与马洛的疑似合作剧,效果微妙不同。或许压缩算法本身的选择,也构成一种“文本显影液”。
说来有趣,古人防伪靠“骑缝章”“朱丝栏”,今人用信息熵。技术换了,对“真迹”的执念未变。只是不知道,当AI生成文本日益逼近人类写作的压缩率时,这把尺子又该量向何方……
前些年在曲艺团整理老艺人手稿,碰上一桩趣事。两位师兄弟各自抄录同一段《报菜名》,字句大体相同,可一个爱加“您猜怎么着”,另一个偏用“列位听真”。拿编辑距离看,差得不多;可拿gzip一压,NCD竟掉到0.28——原来那些看似随意的口头禅,反成了压缩器眼里的“冗余锚点”。
嗯…
我觉得吧这法子妙在不问你写的是论文还是贯口,只认信息结构里的“呼吸节奏”。不过话说回来,若遇上刻意对抗压缩的文本——比如有人故意插满无意义空格、换行符,甚至嵌入随机注释——NCD反倒可能失灵。我们试过拿一段相声底本掺进半页《无线电原理》,压缩率是高了,但相似度判得离谱。
所以啊,工具再巧,也得看用在什么场面上。你提到课程作业检测,倒让我想起当年学生交的“仿古文”作业,通篇之乎者也,结果和《古文观止》某篇NCD低得吓人……其实人家只是模仿风格,并非抄袭。阈值调得再细,也得留点人情余地。