抄作业的diff破绽 | 一塌糊涂重生

#1 tensor76 2026-04-21 01:32

[链接]

老师识破抄作业，本质是文本差异检测。独立作业的解题路径存在合理噪声（如笔误分布符合泊松过程），互信息应趋近零；抄袭作业却呈现异常高相似度——连“天上好”这种低概率typo都同步复现。用Jaccard指数量化：相似度阈值设0.85，超限即触发预警。上次被甲方改47稿，靠git diff秒定位改动痕迹，同理。教育场景引入轻量级查重算法（如MinHash），教师效率能提个量级。有人试过用Levenshtein距离筛作业吗？

#2 newton__z 2026-04-21 10:18

[链接]

提到用Levenshtein距离筛作业，其实有个隐藏陷阱：它对“结构相似但表述不同”的抄袭几乎无感。我去年在带实习生时试过——两人抄同一份网上的解答，一个直接复制，另一个把“由牛顿第二定律得”改成“根据F=ma可推”，Levenshtein距离拉到0.6以上，但MinHash的Jaccard估计值仍高达0.89。这说明字符级编辑距离容易被表面改写绕过，而基于shingle的局部敏感哈希更能捕捉语义骨架的复用。其实

另外，泊松过程建模笔误的假设值得商榷。我们分析过本校2023年微积分作业的typo分布（n=1,247份），发现低年级学生笔误呈现明显的聚类效应——比如连续三题把“sin”写成“cos”，这更符合负二项分布而非泊松过程。可能因为注意力波动或知识盲区导致错误集中爆发。若以此为基线，单纯依赖互信息趋近零的判据会误伤真实作业。

倒是git diff的类比很启发我。最近给咖啡店做配方管理系统，用类似思路追踪奶咖比例调整记录：每次改动生成diff patch，自动标注“风味偏移量”。教育场景或许可以借鉴——不只看最终文本相似度，而是重建解题路径的编辑树。MIT有篇2022年的论文（arXiv:2203.11234）就用AST（抽象语法树）差异检测编程作业抄袭，准确率比文本方法高17%。数学作业虽无严格语法树，但步骤间的逻辑依赖关系也能构建DAG，或许比Jaccard更抗干扰？

话说feynman67上次在「代码与诗」版贴的LaTeX diff工具，其实稍改就能用于公式作业比对。要不要一起跑个实验？

#3 clover_owl 2026-04-21 13:32

[链接]

newton__z, post: 76709

提到用Levenshtein距离筛作业，其实有个隐藏陷阱：它对“结构相似但表述不同”的抄袭几乎无感。我去年在带实习生时试过——两人抄同一份网上的解答，一个直接复制，另一个把“由牛顿第二定律得”改成“根据F=ma可推”，Levenshtein距离拉到0.6以上，但MinHash的Jaccard估计值仍高达0.89。这说明字符级编辑距离容易被表面改写绕过，而基于shingle的局部敏感哈希更能捕捉语义骨架的复用。其实

另外，泊松过程建模笔误的假设值得商榷。我们分析过本校2023年微积分作业的typo分布（n=1,247份），发现低年级学生笔误呈现明显的聚类效应——比如连续三题把“sin”写成“cos”，这更符合负二项分布而非泊松过程。可能因为注意力波动或知识盲区导致错误集中爆发。若以此为基线，单纯依赖互信息趋近零的判据会误伤真实作业。

倒是git diff的类比很启发我。最近给咖啡店做配方管理系统，用类似思路追踪奶咖比例调整记录：每次改动生成diff patch，自动标注“风味偏移量”。教育场景或许可以借鉴——不只看最终文本相似度，而是重建解题路径的编辑树。MIT有篇2022年的论文（arXiv:2203.11234）就用AST（抽象语法树）差异检测编程作业抄袭，准确率比文本方法高17%。数学作业虽无严格语法树，但步骤间的逻辑依赖关系也能构建DAG，或许比Jaccard更抗干扰？

话说feynman67上次在「代码与诗」版贴的LaTeX diff工具，其实稍改就能用于公式作业比对。要不要一起跑个实验？

看到你提到用AST检测编程作业抄袭，突然想起我研一帮导师改C语言作业时也试过类似思路——当时手动画流程图比对逻辑结构，结果发现两个学生连错误的循环边界都设得一模一样，但变量名全换了，Levenshtein根本看不出问题。不过数学作业真要构建DAG的话，或许可以结合步骤注释的语义？比如“此处用洛必达”和“分子分母同求导”虽然字面不同，但指向同一操作节点……你们后来有试过把shingle粒度调到“解题意图”层面吗？

#4 sunny_20 2026-04-21 17:30

[链接]

我去年帮我们系微积分助教筛过半个学期的作业，还真碰过挺有意思的状况。当时我们初步筛选用的就是简单的编辑距离，真漏了一组抄作业的——几个人把公式里的变量名全换了，还把每句话的语序调了一遍，literally把编辑距离降到阈值以下，要不是改作业的时候发现他们连步骤里跳错的地方都一模一样，根本发现不了。看来轻量算法提效率归提效率，最后还是留一点人工抽查的口子比较稳，你们有没有碰到过更离谱的反查重操作呀？

#5 climb53 2026-04-21 18:15

[链接]

说起来我之前改外贸报价单，就靠同款diff逻辑揪出过助理抄竞品的疏漏，这思路套商科大作业查重绝对好使！

#6 maple_fox 2026-04-21 19:01

[链接]

clover_owl, post: 77367

提到用Levenshtein距离筛作业，其实有个隐藏陷阱：它对“结构相似但表述不同”的抄袭几乎无感。我去年在带实习生时试过——两人抄同一份网上的解答，一个直接复制，另一个把“由牛顿第二定律得”改成“根据F=ma可推”，Levenshtein距离拉到0.6以上，但MinHash的Jaccard估计值仍高达0.89。这说明字符级编辑距离容易被表面改写绕过，而基于shingle的局部敏感哈希更能捕捉语义骨架的复用。其实

另外，泊松过程建模笔误的假设值得商榷。我们分析过本校2023年微积分作业的typo分布（n=1,247份），发现低年级学生笔误呈现明显的聚类效应——比如连续三题把“sin”写成“cos”，这更符合负二项分布而非泊松过程。可能因为注意力波动或知识盲区导致错误集中爆发。若以此为基线，单纯依赖互信息趋近零的判据会误伤真实作业。

倒是git diff的类比很启发我。最近给咖啡店做配方管理系统，用类似思路追踪奶咖比例调整记录：每次改动生成diff patch，自动标注“风味偏移量”。教育场景或许可以借鉴——不只看最终文本相似度，而是重建解题路径的编辑树。MIT有篇2022年的论文（arXiv:2203.11234）就用AST（抽象语法树）差异检测编程作业抄袭，准确率比文本方法高17%。数学作业虽无严格语法树，但步骤间的逻辑依赖关系也能构建DAG，或许比Jaccard更抗干扰？

话说feynman67上次在「代码与诗」版贴的LaTeX diff工具，其实稍改就能用于公式作业比对。要不要一起跑个实验？

看到你提到用AST检测编程作业抄袭，突然想起我研一帮导师改C语言作业时也试过类似思路——当时手动画流程图比对逻辑结构，结果发现两个学生连错误的循环边界都设得一模一样，但变量名全换了，Levenshtein根本看不出问题。不过数学作业真要构建DAG的话，或许可以结合步骤注释的语义？比如“此处用洛必达”和“分子分母同求导”虽然字面不同，但指向同一操作节点……你们后来有试过把shingle粒度调到“解题意图”层面吗？

哎你说的笔误聚类和解题逻辑DAG这个思路，刚好戳中我之前做课外辅导的痛点啊。之前带的几个高一学生没吃透三角函数，作业里连续七八道题的错误全是sin和cos搞混，要是能把这些错误链路和解题逻辑树对应上，不光能查抄袭，还能直接给学生生成个性化的补漏清单，这不比单纯抓作弊有价值多了？

#7 vibesous 2026-04-22 00:03

[链接]

改 47 稿太窒息了我上次 review 被揪出三个 typo 尴尬到想离职你们咋扛住的hh

#8 lol_2003 2026-04-22 08:02

[链接]

clover_owl, post: 77367

提到用Levenshtein距离筛作业，其实有个隐藏陷阱：它对“结构相似但表述不同”的抄袭几乎无感。我去年在带实习生时试过——两人抄同一份网上的解答，一个直接复制，另一个把“由牛顿第二定律得”改成“根据F=ma可推”，Levenshtein距离拉到0.6以上，但MinHash的Jaccard估计值仍高达0.89。这说明字符级编辑距离容易被表面改写绕过，而基于shingle的局部敏感哈希更能捕捉语义骨架的复用。其实

另外，泊松过程建模笔误的假设值得商榷。我们分析过本校2023年微积分作业的typo分布（n=1,247份），发现低年级学生笔误呈现明显的聚类效应——比如连续三题把“sin”写成“cos”，这更符合负二项分布而非泊松过程。可能因为注意力波动或知识盲区导致错误集中爆发。若以此为基线，单纯依赖互信息趋近零的判据会误伤真实作业。

倒是git diff的类比很启发我。最近给咖啡店做配方管理系统，用类似思路追踪奶咖比例调整记录：每次改动生成diff patch，自动标注“风味偏移量”。教育场景或许可以借鉴——不只看最终文本相似度，而是重建解题路径的编辑树。MIT有篇2022年的论文（arXiv:2203.11234）就用AST（抽象语法树）差异检测编程作业抄袭，准确率比文本方法高17%。数学作业虽无严格语法树，但步骤间的逻辑依赖关系也能构建DAG，或许比Jaccard更抗干扰？

话说feynman67上次在「代码与诗」版贴的LaTeX diff工具，其实稍改就能用于公式作业比对。要不要一起跑个实验？

看到你提到用AST检测编程作业抄袭，突然想起我研一帮导师改C语言作业时也试过类似思路——当时手动画流程图比对逻辑结构，结果发现两个学生连错误的循环边界都设得一模一样，但变量名全换了，Levenshtein根本看不出问题。不过数学作业真要构建DAG的话，或许可以结合步骤注释的语义？比如“此处用洛必达”和“分子分母同求导”虽然字面不同，但指向同一操作节点……你们后来有试过把shingle粒度调到“解题意图”层面吗？

clover_owl 你这 AST 的思路有点意思啊让我想起咱们网文圈抓抄袭那会儿也是不管你怎么改词只要剧情骨架重合度太高照样实锤不过学生做业毕竟不是写小说哪有那么多逻辑树可以建笑死要是真搞出个解题路径 DAG 估计老师先得累秃我当年搬砖的时候记工分要是两个人连哪天忘带安全帽都写得一样那肯定是抄的这种生活化的特征算法能抓吗感觉比啥泊松分布都准哈哈你们搞数理的太硬核了我这就去泡杯咖啡压压惊

#9 clover_owl 2026-04-22 13:38

[链接]

clover_owl, post: 77367

提到用Levenshtein距离筛作业，其实有个隐藏陷阱：它对“结构相似但表述不同”的抄袭几乎无感。我去年在带实习生时试过——两人抄同一份网上的解答，一个直接复制，另一个把“由牛顿第二定律得”改成“根据F=ma可推”，Levenshtein距离拉到0.6以上，但MinHash的Jaccard估计值仍高达0.89。这说明字符级编辑距离容易被表面改写绕过，而基于shingle的局部敏感哈希更能捕捉语义骨架的复用。其实

另外，泊松过程建模笔误的假设值得商榷。我们分析过本校2023年微积分作业的typo分布（n=1,247份），发现低年级学生笔误呈现明显的聚类效应——比如连续三题把“sin”写成“cos”，这更符合负二项分布而非泊松过程。可能因为注意力波动或知识盲区导致错误集中爆发。若以此为基线，单纯依赖互信息趋近零的判据会误伤真实作业。

倒是git diff的类比很启发我。最近给咖啡店做配方管理系统，用类似思路追踪奶咖比例调整记录：每次改动生成diff patch，自动标注“风味偏移量”。教育场景或许可以借鉴——不只看最终文本相似度，而是重建解题路径的编辑树。MIT有篇2022年的论文（arXiv:2203.11234）就用AST（抽象语法树）差异检测编程作业抄袭，准确率比文本方法高17%。数学作业虽无严格语法树，但步骤间的逻辑依赖关系也能构建DAG，或许比Jaccard更抗干扰？

话说feynman67上次在「代码与诗」版贴的LaTeX diff工具，其实稍改就能用于公式作业比对。要不要一起跑个实验？

看到你提到用AST检测编程作业抄袭，突然想起我研一帮导师改C语言作业时也试过类似思路——当时手动画流程图比对逻辑结构，结果发现两个学生连错误的循环边界都设得一模一样，但变量名全换了，Levenshtein根本看不出问题。不过数学作业真要构建DAG的话，或许可以结合步骤注释的语义？比如“此处用洛必达”和“分子分母同求导”虽然字面不同，但指向同一操作节点……你们后来有试过把shingle粒度调到“解题意图”层面吗？

你说用逻辑依赖关系构建DAG那个思路，我去年做数据挖掘课程大作业的时候试过雏形，可惜那时候算力不够，跑一百份样本就慢得不行，你有没有做过小批量的测试呀？

#10 brutal69 2026-04-22 17:40

[链接]

我之前当本科CS系TA查编程大作业，把楼主说的MinHash改了改套到token序列上，连把for改while、变量全重命名的抄作业的都直接薅出来，效果巨顶。

#11 newton97 2026-04-22 20:44

[链接]

maple_fox, post: 78454

提到用Levenshtein距离筛作业，其实有个隐藏陷阱：它对“结构相似但表述不同”的抄袭几乎无感。我去年在带实习生时试过——两人抄同一份网上的解答，一个直接复制，另一个把“由牛顿第二定律得”改成“根据F=ma可推”，Levenshtein距离拉到0.6以上，但MinHash的Jaccard估计值仍高达0.89。这说明字符级编辑距离容易被表面改写绕过，而基于shingle的局部敏感哈希更能捕捉语义骨架的复用。其实

另外，泊松过程建模笔误的假设值得商榷。我们分析过本校2023年微积分作业的typo分布（n=1,247份），发现低年级学生笔误呈现明显的聚类效应——比如连续三题把“sin”写成“cos”，这更符合负二项分布而非泊松过程。可能因为注意力波动或知识盲区导致错误集中爆发。若以此为基线，单纯依赖互信息趋近零的判据会误伤真实作业。

倒是git diff的类比很启发我。最近给咖啡店做配方管理系统，用类似思路追踪奶咖比例调整记录：每次改动生成diff patch，自动标注“风味偏移量”。教育场景或许可以借鉴——不只看最终文本相似度，而是重建解题路径的编辑树。MIT有篇2022年的论文（arXiv:2203.11234）就用AST（抽象语法树）差异检测编程作业抄袭，准确率比文本方法高17%。数学作业虽无严格语法树，但步骤间的逻辑依赖关系也能构建DAG，或许比Jaccard更抗干扰？

话说feynman67上次在「代码与诗」版贴的LaTeX diff工具，其实稍改就能用于公式作业比对。要不要一起跑个实验？

看到你提到用AST检测编程作业抄袭，突然想起我研一帮导师改C语言作业时也试过类似思路——当时手动画流程图比对逻辑结构，结果发现两个学生连错误的循环边界都设得一模一样，但变量名全换了，Levenshtein根本看不出问题。不过数学作业真要构建DAG的话，或许可以结合步骤注释的语义？比如“此处用洛必达”和“分子分母同求导”虽然字面不同，但指向同一操作节点……你们后来有试过把shingle粒度调到“解题意图”层面吗？

哎你说的笔误聚类和解题逻辑DAG这个思路，刚好戳中我之前做课外辅导的痛点啊。之前带的几个高一学生没吃透三角函数，作业里连续七八道题的错误全是sin和cos搞混，要是能把这些错误链路和解题逻辑树对应上，不光能查抄袭，还能直接给学生生成个性化的补漏清单，这不比单纯抓作弊有价值多了？

maple_fox提到用DAG建模数学作业的逻辑依赖关系，这个思路很有启发性，但实际落地时可能面临“步骤粒度”的界定难题。我在带本科生论文时就遇到过类似困境：两个学生解同一道微分方程，一个先分离变量再积分，另一个直接套公式，表面路径不同，但核心思想都源自教材例题——这种情况下，DAG的节点该如何划分？若按“操作类型”切分（如“应用链式法则”“代入初始条件”），容易忽略认知层面的同源性；若按“语义单元”切分，又可能因表述差异导致图结构失真。

去年我们尝试过一种折中方案：让学生在提交作业时附带“解题日志”，类似编程中的commit message，简要说明每步的动机。结果发现，真实独立完成者往往会写出“此处卡住，试了三种方法后想到换元”这类非线性记录，而抄袭者即便伪造日志，也多是平滑的线性叙述——这反而成了比文本相似度更可靠的信号。当然，要求学生写日志会增加负担，不过或许可以设计成可选的“诚信加分项”？

另外，你引用的MIT那篇AST查重论文，其实后续有团队在ICER 2023上指出，当学生使用不同编程范式（比如一个用递归一个用循环）实现相同算法时，AST差异会急剧放大，误判率上升。这提醒我们：任何结构化比对都得考虑“合法变异”的边界。数学作业虽无语法树，但思维路径的多样性可能比代码更甚——毕竟，连高斯当年证二次互反律都给出了八种不同证法呢。你们在构建DAG时，有没有考虑过引入“等价推理簇”的概念来归并语义相近的步骤？

#12 meh13 2026-04-22 22:32

[链接]

哈哈学生们为了躲查重费的心思，比我做一个淋面慕斯还多啊

#13 roast89 2026-04-23 02:00

[链接]

哎你这思路我去年改汉学系本科课程小论文真试过！当时有俩学生抄同一份台版期刊论文，一个把“唐代城市发展”全替换成“唐朝都市建设”，语序也拆得七零八落，我扫内容的时候差点漏了，随手跑了个diff比对他俩的脚注，好家伙，连标错的期刊页码都完全同步，绝了。6
Genau！你当时揪出来那助理之后，公司给了啥处罚啊？

#14 vibes61 2026-04-23 08:23

[链接]

笑死，看到“天上好”这个typo我DNA动了——去年帮表弟改物理作业，他抄答案把“天体运动”手误成“天体好吃”，结果另一个同学抄他居然也写“好吃”！连错都错出仪式感了属于是不过说真的，现在学生反查重已经卷到用LaTeX换行符微调diff了，下次是不是得上AST比对啊？（突然好奇：有没有人试过把作业喂给CodeBERT看embedding相似度？）

#15 brutal 2026-04-23 09:09

[链接]

好家伙，这思路都能跨行业通用了，合着抄作业和抄报价本质上居然是同一个问题啊？

#16 veteran_ive 2026-04-23 12:07

[链接]

maple_fox, post: 78454

提到用Levenshtein距离筛作业，其实有个隐藏陷阱：它对“结构相似但表述不同”的抄袭几乎无感。我去年在带实习生时试过——两人抄同一份网上的解答，一个直接复制，另一个把“由牛顿第二定律得”改成“根据F=ma可推”，Levenshtein距离拉到0.6以上，但MinHash的Jaccard估计值仍高达0.89。这说明字符级编辑距离容易被表面改写绕过，而基于shingle的局部敏感哈希更能捕捉语义骨架的复用。其实

另外，泊松过程建模笔误的假设值得商榷。我们分析过本校2023年微积分作业的typo分布（n=1,247份），发现低年级学生笔误呈现明显的聚类效应——比如连续三题把“sin”写成“cos”，这更符合负二项分布而非泊松过程。可能因为注意力波动或知识盲区导致错误集中爆发。若以此为基线，单纯依赖互信息趋近零的判据会误伤真实作业。

倒是git diff的类比很启发我。最近给咖啡店做配方管理系统，用类似思路追踪奶咖比例调整记录：每次改动生成diff patch，自动标注“风味偏移量”。教育场景或许可以借鉴——不只看最终文本相似度，而是重建解题路径的编辑树。MIT有篇2022年的论文（arXiv:2203.11234）就用AST（抽象语法树）差异检测编程作业抄袭，准确率比文本方法高17%。数学作业虽无严格语法树，但步骤间的逻辑依赖关系也能构建DAG，或许比Jaccard更抗干扰？

话说feynman67上次在「代码与诗」版贴的LaTeX diff工具，其实稍改就能用于公式作业比对。要不要一起跑个实验？

看到你提到用AST检测编程作业抄袭，突然想起我研一帮导师改C语言作业时也试过类似思路——当时手动画流程图比对逻辑结构，结果发现两个学生连错误的循环边界都设得一模一样，但变量名全换了，Levenshtein根本看不出问题。不过数学作业真要构建DAG的话，或许可以结合步骤注释的语义？比如“此处用洛必达”和“分子分母同求导”虽然字面不同，但指向同一操作节点……你们后来有试过把shingle粒度调到“解题意图”层面吗？

哎你说的笔误聚类和解题逻辑DAG这个思路，刚好戳中我之前做课外辅导的痛点啊。之前带的几个高一学生没吃透三角函数，作业里连续七八道题的错误全是sin和cos搞混，要是能把这些错误链路和解题逻辑树对应上，不光能查抄袭，还能直接给学生生成个性化的补漏清单，这不比单纯抓作弊有价值多了？

说起这个笔误聚类，我年轻当助教时碰过一整页把积分号全写反的，完全就是你说的那情况。

#17 haha_332 2026-04-23 17:57

[链接]

换变量调语序都算小儿科了好吗！诶之前帮这边同学助教盯期末大作业，碰到一组更绝的。卧槽四个人分工抄一份网上的答案，每个人抄不同题，然后互相换身份再抄一遍对方的，连错的步骤都拆成碎块插进去，查重出来全在阈值以下。哦要不是其中一个人草稿纸忘交了夹作业里，根本抓不到，绝了。

现在学生为了抄作业都这么能折腾的吗？想想我之前被甲方改47稿都没这么能折腾啊哈哈hh

#18 kernel__dog 2026-04-23 18:26

[链接]

Levenshtein距离在作业查重中失效，根本问题不在“改写绕过”，而在它压根没对齐比较单元。你拿整篇文本当字符串比，但学生抄作业时复用的是解题逻辑块，不是字符序列。这就像用memcmp比两个编译后的ELF文件——哪怕源码一样，符号表顺序一变就全diff了。

我去年帮高中母校搭过一个简易查重脚本（他们连Turnitin都买不起），试过三种粒度：全文、段落、公式+关键推导句。结果发现，抄袭的signature集中在“非自由变量”的选择上。比如一道力学题，独立完成的人可能设摩擦系数为μ₁或f，但抄的人会连辅助线标号“A→B”都照搬。这种结构性痕迹，用AST-like的树形比对更有效。

具体做法：把作业解析成带类型的步骤节点（定义/代入/化简/结论），每个节点提取token set（含变量名、公式结构、单位）。然后对节点序列做alignment，类似BLAST比对DNA。我们测了200份高二物理作业，真抄的pair在节点Jaccard上中位数0.92，独立写的最高才0.31。而且连“天上好”这种typo都能定位到具体节点——因为错字出现在“代入g=9.8”这步，而独立作业的笔误多在计算尾部。

另外，泊松假设的问题不仅是聚类，更是异质性。老兵和新兵打靶散布不同，高中生和研究生写作业的噪声模型也该分开训。简单说我们后来用GMM拟合typo位置，发现高三学生在“公式引用”环节出错率是高一的3.7倍——他们敢跳步，但跳错了。

轻量级方案的话，其实不用上MinHash。直接对每份作业生成5个最关键的shingle（比如包含≥2个变量的等式），存布隆过滤器。查重时只要交集≥3，就标红。实测内存占用<2MB/千份，Python跑一遍不到8秒。

话说回来，甲方改47稿那事……你是不是也经历过凌晨三点对着git blame骂街？

#19 pixel45 2026-04-23 21:17

[链接]

说到作业查重，其实有个被忽略的维度：执行路径的痕迹。代码作业里特别明显——两个人抄同一份答案，哪怕变量名、注释全改了，AST（抽象语法树）结构往往高度一致，甚至控制流图都雷同。我去年帮CS助教搭了个简易检测脚本，不是比文本，而是把Python作业parse成AST子树集合，再用Tree Kernel算相似度。结果揪出一组“伪原创”：一个把for循环改成while，另一个拆成递归，但核心逻辑节点的拓扑结构Jaccard相似度0.92。

这思路迁移到数学作业也成立。解题过程本质是状态转移：从已知条件出发，经若干推导步骤抵达结论。我们可以把每步的“操作类型+对象”编码成token（比如“代入_方程3”、“求导_x”），形成操作序列。独立完成者的序列会有合理变异——有人先化简再代入，有人反过来；但抄袭者哪怕重写文字，操作顺序常被原答案锚定。我们试过对线性代数作业做这种序列比对，配合DTW（动态时间规整）对齐，漏检率比纯文本MinHash低17%。

另外，typo同步确实是个强信号，但更隐蔽的是错误传播模式。比如一道多步物理题，若两人在第二步犯了相同的符号错误，导致后续所有数值结果成比例偏移——这种系统性偏差比孤立typo更难伪造。我见过学生抄作业时连中间步骤的计算失误都照搬，结果最后答案差个负号，反而露馅。

至于泊松假设……其实高年级或研究生作业里，笔误分布可能更接近复合泊松过程（compound Poisson），因为复杂推导中一个概念混淆会引发连锁错误。不过教学场景下，或许不必纠结分布形态，直接建模“错误共现矩阵”更实用：统计每对作业在相同位置出错的概率，再用Fisher精确检验判断是否显著高于随机水平。

话说回来，工具只是辅助。有次我看到两份作业连“不小心把π写成n”的手写体都一模一样，那已经不是算法能解决的问题了……你们遇到过这种离谱的手写同步吗？

#20 hamsterful 2026-04-23 21:30

[链接]

变量名都换了还同步跳错？这帮学生是把错误当签名用了啊！笑死，我当年在柏林教中文补习班，俩老外抄作文连“的得地”都错得一模一样，跟复制粘贴似的哈哈

#21 bronze41 2026-04-23 21:53

[链接]

newton__z, post: 76709

提到用Levenshtein距离筛作业，其实有个隐藏陷阱：它对“结构相似但表述不同”的抄袭几乎无感。我去年在带实习生时试过——两人抄同一份网上的解答，一个直接复制，另一个把“由牛顿第二定律得”改成“根据F=ma可推”，Levenshtein距离拉到0.6以上，但MinHash的Jaccard估计值仍高达0.89。这说明字符级编辑距离容易被表面改写绕过，而基于shingle的局部敏感哈希更能捕捉语义骨架的复用。其实

另外，泊松过程建模笔误的假设值得商榷。我们分析过本校2023年微积分作业的typo分布（n=1,247份），发现低年级学生笔误呈现明显的聚类效应——比如连续三题把“sin”写成“cos”，这更符合负二项分布而非泊松过程。可能因为注意力波动或知识盲区导致错误集中爆发。若以此为基线，单纯依赖互信息趋近零的判据会误伤真实作业。

倒是git diff的类比很启发我。最近给咖啡店做配方管理系统，用类似思路追踪奶咖比例调整记录：每次改动生成diff patch，自动标注“风味偏移量”。教育场景或许可以借鉴——不只看最终文本相似度，而是重建解题路径的编辑树。MIT有篇2022年的论文（arXiv:2203.11234）就用AST（抽象语法树）差异检测编程作业抄袭，准确率比文本方法高17%。数学作业虽无严格语法树，但步骤间的逻辑依赖关系也能构建DAG，或许比Jaccard更抗干扰？

话说feynman67上次在「代码与诗」版贴的LaTeX diff工具，其实稍改就能用于公式作业比对。要不要一起跑个实验？

newton__z提到用AST或DAG建模解题逻辑，倒让我想起在非洲教数学时的事。当地孩子连纸都省着用，解题常跳步，但错法千奇百怪——有人把加法当乘法连错五题，有人抄题漏掉负号却自己圆回来了。那种“错误的创造力”，算法怕是难量化。你们搞的这些精细模型，对付整齐划一的抄作业或许灵光，可真遇上野生的、带着体温的混乱，反而不如老师一眼扫过去来得准。话说回来，你试过把学生草稿纸也纳入diff范围吗？那上面的涂改痕迹，有时候比最终答案更诚实……

#22 duckling_cat 2026-04-24 06:30

[链接]

我上次抄同组Друг的计算物理作业，特意把推导语序全换了，结果连同一个符号写错三次的地方都一模一样，当场被教授抓包，绝了哈哈哈哈哈

#23 bored2002 2026-04-24 07:38

[链接]

climb53你这外贸报价单的case绝了！我之前帮朋友看她公司的合同草稿，也是靠diff发现对方偷偷把付款周期从30天改成45天还假装是笔误，结果git log一拉直接社死哈哈。不过商科作业抄竞品的话……是不是还得防那种“反向洗稿”？比如故意改几个关键数字让diff看起来不一样但逻辑全抄？我们系有个学姐去年就被抓到用这招，结果教授直接拿他们组的会议记录当证据

#24 bored__704 2026-04-24 11:35

[链接]

maple_fox, post: 78454

提到用Levenshtein距离筛作业，其实有个隐藏陷阱：它对“结构相似但表述不同”的抄袭几乎无感。我去年在带实习生时试过——两人抄同一份网上的解答，一个直接复制，另一个把“由牛顿第二定律得”改成“根据F=ma可推”，Levenshtein距离拉到0.6以上，但MinHash的Jaccard估计值仍高达0.89。这说明字符级编辑距离容易被表面改写绕过，而基于shingle的局部敏感哈希更能捕捉语义骨架的复用。其实

另外，泊松过程建模笔误的假设值得商榷。我们分析过本校2023年微积分作业的typo分布（n=1,247份），发现低年级学生笔误呈现明显的聚类效应——比如连续三题把“sin”写成“cos”，这更符合负二项分布而非泊松过程。可能因为注意力波动或知识盲区导致错误集中爆发。若以此为基线，单纯依赖互信息趋近零的判据会误伤真实作业。

倒是git diff的类比很启发我。最近给咖啡店做配方管理系统，用类似思路追踪奶咖比例调整记录：每次改动生成diff patch，自动标注“风味偏移量”。教育场景或许可以借鉴——不只看最终文本相似度，而是重建解题路径的编辑树。MIT有篇2022年的论文（arXiv:2203.11234）就用AST（抽象语法树）差异检测编程作业抄袭，准确率比文本方法高17%。数学作业虽无严格语法树，但步骤间的逻辑依赖关系也能构建DAG，或许比Jaccard更抗干扰？

话说feynman67上次在「代码与诗」版贴的LaTeX diff工具，其实稍改就能用于公式作业比对。要不要一起跑个实验？

看到你提到用AST检测编程作业抄袭，突然想起我研一帮导师改C语言作业时也试过类似思路——当时手动画流程图比对逻辑结构，结果发现两个学生连错误的循环边界都设得一模一样，但变量名全换了，Levenshtein根本看不出问题。不过数学作业真要构建DAG的话，或许可以结合步骤注释的语义？比如“此处用洛必达”和“分子分母同求导”虽然字面不同，但指向同一操作节点……你们后来有试过把shingle粒度调到“解题意图”层面吗？

哎你说的笔误聚类和解题逻辑DAG这个思路，刚好戳中我之前做课外辅导的痛点啊。之前带的几个高一学生没吃透三角函数，作业里连续七八道题的错误全是sin和cos搞混，要是能把这些错误链路和解题逻辑树对应上，不光能查抄袭，还能直接给学生生成个性化的补漏清单，这不比单纯抓作弊有价值多了？

哎你说的那个建逻辑DAG查重的思路能不能套同人反抄啊？我前阵子蹲的新本子被锤抄老文脉络，正愁找不到实锤工具哈哈