抄作业的贝叶斯判别逻辑

#1 prof_jr 2026-04-25 22:28

[链接]

刚刷到知乎那个抄作业抄出“天上好”的梗，突然想到之前带本科生助教的时候，大伙私下聊的改作业抓抄袭的经验，本质上都是朴素贝叶斯的应用逻辑。
你想，一个学生平时作业的错误率、推导习惯、记号偏好都是先验分布，突然出现某道题步骤和参考答案高度重合，或者完全不符合他平时能力的正确结果，甚至出现只有参考答案才会有的印刷笔误，这种低概率事件的后验置信度直接拉到95%以上，比对笔迹、查雷同要高效得多。有没有人做过相关的量化模型？

#2 byte__bee 2026-04-26 08:34

[链接]

去年带大二概率论实验课时，我也用过类似思路筛异常作业。不过实际跑下来发现，光靠“步骤雷同”或“突然正确”容易误伤——尤其对那种平时摆烂但考前突击看懂了的学生。后来加了个动态先验：把学生前几次作业的错误模式（比如总在条件概率分母漏写、习惯用P(A|B)而非P(B|A)）编码成特征向量，再和当前作业做KL散度比对。当某次作业的推导链与历史分布距离超过2σ，才触发人工复核。简单说

你说的印刷笔误确实是强信号。我们抓过一例：参考答案把“λ=0.5”印成“λ=0.8”，结果三个学生同步抄错，而他们平时连泊松分布都算不利索。这种硬性错误相当于天然的watermark，比文本相似度靠谱多了。

但要注意两类噪声：一是助教自己改串行了（我见过把A卷答案批到B卷上），二是学生互相讨论后趋同。建议在模型里加个“讨论组”变量——如果某宿舍四人作业同时突变，大概率是开黑不是抄袭。另外，别直接上95%置信度，本科生作业的样本量太小，用贝叶斯因子（BF>10）更稳。

最近在搞一个轻量级工具，用AST解析LaTeX源码提取推导结构（比PDF文本鲁棒），再结合Git提交时间戳判断是否临交前重构。有兴趣可以一起测，数据集缺文科生的作业样本……你们数学系收不收跨专业合作？

#3 euler2001 2026-04-26 10:39

[链接]

byte__bee, post: 97481

去年带大二概率论实验课时，我也用过类似思路筛异常作业。不过实际跑下来发现，光靠“步骤雷同”或“突然正确”容易误伤——尤其对那种平时摆烂但考前突击看懂了的学生。后来加了个动态先验：把学生前几次作业的错误模式（比如总在条件概率分母漏写、习惯用P(A|B)而非P(B|A)）编码成特征向量，再和当前作业做KL散度比对。当某次作业的推导链与历史分布距离超过2σ，才触发人工复核。简单说

你说的印刷笔误确实是强信号。我们抓过一例：参考答案把“λ=0.5”印成“λ=0.8”，结果三个学生同步抄错，而他们平时连泊松分布都算不利索。这种硬性错误相当于天然的watermark，比文本相似度靠谱多了。

但要注意两类噪声：一是助教自己改串行了（我见过把A卷答案批到B卷上），二是学生互相讨论后趋同。建议在模型里加个“讨论组”变量——如果某宿舍四人作业同时突变，大概率是开黑不是抄袭。另外，别直接上95%置信度，本科生作业的样本量太小，用贝叶斯因子（BF>10）更稳。

最近在搞一个轻量级工具，用AST解析LaTeX源码提取推导结构（比PDF文本鲁棒），再结合Git提交时间戳判断是否临交前重构。有兴趣可以一起测，数据集缺文科生的作业样本……你们数学系收不收跨专业合作？

你提到用AST解析LaTeX源码提取推导结构，这个思路很妙——我在NUS当TA时试过类似方法，但踩过一个坑：学生用Overleaf协作写作业，Git时间戳反而会失真。有次抓到四人组作业结构高度一致，提交记录显示他们在截止前两小时密集push，乍看像临阵抄答案，结果一问才知道是小组讨论后各自重写，只是用了同一个模板库（比如他们fork了某GitHub上的概率论作业框架）。后来我加了个启发式规则：如果AST子树的拓扑结构相似但变量命名风格迥异（比如有人用\theta有人用\lambda，注释语言混中英文），就降权处理。

另外你缺文科生样本这事倒提醒我了。前年在北漂开网约车，接过一个社科院研究生，聊起来他说他们系用Turnitin查论文，但对数学公式束手无策——因为PDF里的公式转成文本全是乱码。他导师甚至让学生手写关键推导拍照上传，就为防“复制粘贴式抄袭”。或许你们工具可以考虑兼容图像OCR+符号识别？虽然噪声大，但对非理工科反而是刚需。

btw，KL散度那块你设2σ阈值，有没有试过分位数自适应？我见过一个学生前五次作业全错，第六次突然全对（后来承认是ta哥帮忙改的），但因为历史分布方差极大，KL距离居然没超阈值……样本稀疏下的先验稳定性，可能比模型本身更棘手。你们工具开源吗？想看看具体怎么处理边缘案例。

#4 lazy_x 2026-04-26 12:05

[链接]

笑死，想起在肯尼亚工地教实习生算混凝土配比，有人抄答案连“水灰比=0.45”后面的笔误“=0.54”都照搬，当场破防🤣hh

#5 scout 2026-04-26 12:57

[链接]

euler2001 • 四月 26 四月 26

arrow_upward

去年带大二概率论实验课时，我也用过类似思路筛异常作业。不过实际跑下来发现，光靠“步骤雷同”或“突然正确”容易误伤——尤其对那种平时摆烂但考前突击看懂了的学生。后来加了个动态先验：把学生前几次作业的错误模式（比如总在条件概率分母漏写、习惯用P(A|B)而非P(B|A)）编码成特征向量，再和当前作业做KL散度比对。当某次作业的推导链与历史分布距离超过2σ，才触发人工复核。简单说

你说的印刷笔误确实是强信号。我们抓过一例：参考答案把“λ=0.5”印成“λ=0.8”，结果三个学生同步抄错，而他们平时连泊松分布都算不利索。这种硬性错误相当于天然的watermark，比文本相似度靠谱多了。

但要注意两类噪声：一是助教自己改串行了（我见过把A卷答案批到B卷上），二是学生互相讨论后趋同。建议在模型里加个“讨论组”变量——如果某宿舍四人作业同时突变，大概率是开黑不是抄袭。另外，别直接上95%置信度，本科生作业的样本量太小，用贝叶斯因子（BF>10）更稳。

最近在搞一个轻量级工具，用AST解析LaTeX源码提取推导结构（比PDF文本鲁棒），再结合Git提交时间戳判断是否临交前重构。有兴趣可以一起测，数据集缺文科生的作业样本……你们数学系收不收跨专业合作？

你提到用AST解析LaTeX源码提取推导结构，这个思路很妙——我在NUS当TA时试过类似方法，但踩过一个坑：学生用Overleaf协作写作业，Git时间戳反而会失真。有次抓到四人组作业结构高度一致，提交记录显示他们在截止前两小时密集push，乍看像临阵抄答案，结果一问才知道是小组讨论后各自重写，只是用了同一个模板库（比如他们fork了某GitHub上的概率论作业框架）。后来我加了个启发式规则：如果AST子树的拓扑结构相似但变量命名风格迥异（比如有人用\theta有人用\lambda，注释语言混中英文），就降权处理。

另外你缺文科生样本这事倒提醒我了。前年在北漂开网约车，接过一个社科院研究生，聊起来他说他们系用Turnitin查论文，但对数学公式束手无策——因为PDF里的公式转成文本全是乱码。他导师甚至让学生手写关键推导拍照上传，就为防“复制粘贴式抄袭”。或许你们工具可以考虑兼容图像OCR+符号识别？虽然噪声大，但对非理工科反而是刚需。

btw，KL散度那块你设2σ阈值，有没有试过分位数自适应？我见过一个学生前五次作业全错，第六次突然全对（后来承认是ta哥帮忙改的），但因为历史分布方差极大，KL距离居然没超阈值……样本稀疏下的先验稳定性，可能比模型本身更棘手。你们工具开源吗？想看看具体怎么处理边缘案例。

你抓动态先验和印刷笔误的逻辑确实精准！不过你提到Overleaf协作那个坑，我听说现在连本科生都卷出花了！有个事不知道该不该说，其实Overleaf后台的Revision History才是核武器，你们知道吗？很多学生以为切共享链接就能瞒天过海，但后台连谁在几点几分删了哪行公式都记得清清楚楚。我博士那会儿盯项目， literally 一拉日志就能看出谁在临DDL前疯狂重构。跨学科合作我绝对举双手赞成！啊现在文科生交作业都开始用AI生成LaTeX了，那种生硬的注释习惯跟数学系手推的“人味儿”完全不一样。你们要是缺样本，我外贸圈认识几个海归辅导机构，手里正好有一批跨学科日志，要不要悄悄对接下？ btw 跑模型记得把AI的temperature也当先验塞进去，不然真的会误伤老实孩子……

#6 kind__jr 2026-04-26 13:07

[链接]

嗯嗯，楼主这思路真巧妙。平时写小说审稿子时我也常碰到，不用逐字比对，光看行文节奏和用词习惯就能感觉到“是不是同一个人”。就像调吉他弦，熟悉了基准音高，突然冒出来的不和谐音特别明显。助教改作业辛苦啦，期待有跑过相关算法的同行来聊聊～~

#7 sonnet_fox 2026-04-26 14:55

[链接]

scout • 四月 26 四月 26

arrow_upward

去年带大二概率论实验课时，我也用过类似思路筛异常作业。不过实际跑下来发现，光靠“步骤雷同”或“突然正确”容易误伤——尤其对那种平时摆烂但考前突击看懂了的学生。后来加了个动态先验：把学生前几次作业的错误模式（比如总在条件概率分母漏写、习惯用P(A|B)而非P(B|A)）编码成特征向量，再和当前作业做KL散度比对。当某次作业的推导链与历史分布距离超过2σ，才触发人工复核。简单说

你说的印刷笔误确实是强信号。我们抓过一例：参考答案把“λ=0.5”印成“λ=0.8”，结果三个学生同步抄错，而他们平时连泊松分布都算不利索。这种硬性错误相当于天然的watermark，比文本相似度靠谱多了。

但要注意两类噪声：一是助教自己改串行了（我见过把A卷答案批到B卷上），二是学生互相讨论后趋同。建议在模型里加个“讨论组”变量——如果某宿舍四人作业同时突变，大概率是开黑不是抄袭。另外，别直接上95%置信度，本科生作业的样本量太小，用贝叶斯因子（BF>10）更稳。

最近在搞一个轻量级工具，用AST解析LaTeX源码提取推导结构（比PDF文本鲁棒），再结合Git提交时间戳判断是否临交前重构。有兴趣可以一起测，数据集缺文科生的作业样本……你们数学系收不收跨专业合作？

你提到用AST解析LaTeX源码提取推导结构，这个思路很妙——我在NUS当TA时试过类似方法，但踩过一个坑：学生用Overleaf协作写作业，Git时间戳反而会失真。有次抓到四人组作业结构高度一致，提交记录显示他们在截止前两小时密集push，乍看像临阵抄答案，结果一问才知道是小组讨论后各自重写，只是用了同一个模板库（比如他们fork了某GitHub上的概率论作业框架）。后来我加了个启发式规则：如果AST子树的拓扑结构相似但变量命名风格迥异（比如有人用\theta有人用\lambda，注释语言混中英文），就降权处理。

另外你缺文科生样本这事倒提醒我了。前年在北漂开网约车，接过一个社科院研究生，聊起来他说他们系用Turnitin查论文，但对数学公式束手无策——因为PDF里的公式转成文本全是乱码。他导师甚至让学生手写关键推导拍照上传，就为防“复制粘贴式抄袭”。或许你们工具可以考虑兼容图像OCR+符号识别？虽然噪声大，但对非理工科反而是刚需。

btw，KL散度那块你设2σ阈值，有没有试过分位数自适应？我见过一个学生前五次作业全错，第六次突然全对（后来承认是ta哥帮忙改的），但因为历史分布方差极大，KL距离居然没超阈值……样本稀疏下的先验稳定性，可能比模型本身更棘手。你们工具开源吗？想看看具体怎么处理边缘案例。

你抓动态先验和印刷笔误的逻辑确实精准！不过你提到Overleaf协作那个坑，我听说现在连本科生都卷出花了！有个事不知道该不该说，其实Overleaf后台的Revision History才是核武器，你们知道吗？很多学生以为切共享链接就能瞒天过海，但后台连谁在几点几分删了哪行公式都记得清清楚楚。我博士那会儿盯项目， literally 一拉日志就能看出谁在临DDL前疯狂重构。跨学科合作我绝对举双手赞成！啊现在文科生交作业都开始用AI生成LaTeX了，那种生硬的注释习惯跟数学系手推的“人味儿”完全不一样。你们要是缺样本，我外贸圈认识几个海归辅导机构，手里正好有一批跨学科日志，要不要悄悄对接下？ btw 跑模型记得把AI的temperature也当先验塞进去，不然真的会误伤老实孩子……

看到你说“用AST解析LaTeX源码提取推导结构”，心头忽然一动——这不正像建筑师看施工图时辨认设计语言么？有人惯用悬挑，有人偏爱对称轴线，连标注尺寸的小习惯都藏不住。我带过几个实习生画图，哪怕换软件、改图层名，只要看他如何处理转角节点、怎样标注标高，三笔两划就能认出是谁的手笔。

你提到Overleaf协作写作业的坑，让我想起在新加坡那会儿，有学生交来的作业PDF里嵌着协作者的注释草稿，像未干的墨迹渗进纸背。那时我便想，若把LaTeX编译日志也纳入特征空间，或许能捕捉到“深夜三点突然重写第三题”的痕迹——那种仓促重构的语法节奏，和从容推演的呼吸感全然不同。
怎么说呢
倒是好奇，你们是否试过将推导链的“美学连贯性”量化？比如某些人喜欢一步到位的简洁，另一些人则层层铺垫如写散文。这种风格指纹，或许比KL散度更难伪造。毕竟，抄答案容易，抄思维韵律却难。

文科生的作业样本……我手头倒有些诗学分析课的旧卷子，学生常把隐喻逻辑当证明链写，错得极有个性。要不要拿去喂模型？看它能否分辨出“故意朦胧”与“真不会”的边界。

#8 duckling_kr 2026-04-26 18:45

[链接]

euler2001 • 四月 26 四月 26

arrow_upward

去年带大二概率论实验课时，我也用过类似思路筛异常作业。不过实际跑下来发现，光靠“步骤雷同”或“突然正确”容易误伤——尤其对那种平时摆烂但考前突击看懂了的学生。后来加了个动态先验：把学生前几次作业的错误模式（比如总在条件概率分母漏写、习惯用P(A|B)而非P(B|A)）编码成特征向量，再和当前作业做KL散度比对。当某次作业的推导链与历史分布距离超过2σ，才触发人工复核。简单说

你说的印刷笔误确实是强信号。我们抓过一例：参考答案把“λ=0.5”印成“λ=0.8”，结果三个学生同步抄错，而他们平时连泊松分布都算不利索。这种硬性错误相当于天然的watermark，比文本相似度靠谱多了。

但要注意两类噪声：一是助教自己改串行了（我见过把A卷答案批到B卷上），二是学生互相讨论后趋同。建议在模型里加个“讨论组”变量——如果某宿舍四人作业同时突变，大概率是开黑不是抄袭。另外，别直接上95%置信度，本科生作业的样本量太小，用贝叶斯因子（BF>10）更稳。

最近在搞一个轻量级工具，用AST解析LaTeX源码提取推导结构（比PDF文本鲁棒），再结合Git提交时间戳判断是否临交前重构。有兴趣可以一起测，数据集缺文科生的作业样本……你们数学系收不收跨专业合作？

你提到用AST解析LaTeX源码提取推导结构，这个思路很妙——我在NUS当TA时试过类似方法，但踩过一个坑：学生用Overleaf协作写作业，Git时间戳反而会失真。有次抓到四人组作业结构高度一致，提交记录显示他们在截止前两小时密集push，乍看像临阵抄答案，结果一问才知道是小组讨论后各自重写，只是用了同一个模板库（比如他们fork了某GitHub上的概率论作业框架）。后来我加了个启发式规则：如果AST子树的拓扑结构相似但变量命名风格迥异（比如有人用\theta有人用\lambda，注释语言混中英文），就降权处理。

另外你缺文科生样本这事倒提醒我了。前年在北漂开网约车，接过一个社科院研究生，聊起来他说他们系用Turnitin查论文，但对数学公式束手无策——因为PDF里的公式转成文本全是乱码。他导师甚至让学生手写关键推导拍照上传，就为防“复制粘贴式抄袭”。或许你们工具可以考虑兼容图像OCR+符号识别？虽然噪声大，但对非理工科反而是刚需。

btw，KL散度那块你设2σ阈值，有没有试过分位数自适应？我见过一个学生前五次作业全错，第六次突然全对（后来承认是ta哥帮忙改的），但因为历史分布方差极大，KL距离居然没超阈值……样本稀疏下的先验稳定性，可能比模型本身更棘手。你们工具开源吗？想看看具体怎么处理边缘案例。

euler2001提到Overleaf协作那个坑我太懂了！在首尔大当助教时见过俩人共用一个Overleaf project，结果git log里你改我删、我删你加，最后交上来一道题三种笔迹😂 后来我们干脆要求每人单独fork模板repo——不过文科生说LaTeX比微积分还难搞，估计你们要的跨专业数据得先教他们怎么装TeX Live……话说你们工具支持韩文注释吗？화이팅！

#9 buzz23 2026-04-26 20:13

[链接]

euler2001 • 四月 26 四月 26

arrow_upward

去年带大二概率论实验课时，我也用过类似思路筛异常作业。不过实际跑下来发现，光靠“步骤雷同”或“突然正确”容易误伤——尤其对那种平时摆烂但考前突击看懂了的学生。后来加了个动态先验：把学生前几次作业的错误模式（比如总在条件概率分母漏写、习惯用P(A|B)而非P(B|A)）编码成特征向量，再和当前作业做KL散度比对。当某次作业的推导链与历史分布距离超过2σ，才触发人工复核。简单说

你说的印刷笔误确实是强信号。我们抓过一例：参考答案把“λ=0.5”印成“λ=0.8”，结果三个学生同步抄错，而他们平时连泊松分布都算不利索。这种硬性错误相当于天然的watermark，比文本相似度靠谱多了。

但要注意两类噪声：一是助教自己改串行了（我见过把A卷答案批到B卷上），二是学生互相讨论后趋同。建议在模型里加个“讨论组”变量——如果某宿舍四人作业同时突变，大概率是开黑不是抄袭。另外，别直接上95%置信度，本科生作业的样本量太小，用贝叶斯因子（BF>10）更稳。

最近在搞一个轻量级工具，用AST解析LaTeX源码提取推导结构（比PDF文本鲁棒），再结合Git提交时间戳判断是否临交前重构。有兴趣可以一起测，数据集缺文科生的作业样本……你们数学系收不收跨专业合作？

你提到用AST解析LaTeX源码提取推导结构，这个思路很妙——我在NUS当TA时试过类似方法，但踩过一个坑：学生用Overleaf协作写作业，Git时间戳反而会失真。有次抓到四人组作业结构高度一致，提交记录显示他们在截止前两小时密集push，乍看像临阵抄答案，结果一问才知道是小组讨论后各自重写，只是用了同一个模板库（比如他们fork了某GitHub上的概率论作业框架）。后来我加了个启发式规则：如果AST子树的拓扑结构相似但变量命名风格迥异（比如有人用\theta有人用\lambda，注释语言混中英文），就降权处理。

另外你缺文科生样本这事倒提醒我了。前年在北漂开网约车，接过一个社科院研究生，聊起来他说他们系用Turnitin查论文，但对数学公式束手无策——因为PDF里的公式转成文本全是乱码。他导师甚至让学生手写关键推导拍照上传，就为防“复制粘贴式抄袭”。或许你们工具可以考虑兼容图像OCR+符号识别？虽然噪声大，但对非理工科反而是刚需。

btw，KL散度那块你设2σ阈值，有没有试过分位数自适应？我见过一个学生前五次作业全错，第六次突然全对（后来承认是ta哥帮忙改的），但因为历史分布方差极大，KL距离居然没超阈值……样本稀疏下的先验稳定性，可能比模型本身更棘手。你们工具开源吗？想看看具体怎么处理边缘案例。

说到你说的把印刷笔误当天然水印防抄袭这招，我开烧烤店这么多年防同行偷配方，也玩过一模一样的操作！我之前给内部加盟的手写配方里，故意在一个不起眼的配菜配比那里写错了个数字，本来就是专门留的标记。结果不到半年，对面街新开的烧烤摊摆出来的配方，连那个错数字都原封不动抄过去了，当场实锤没跑。

对了，你刚才说缺文科生的作业样本？我大侄子前年毕业，他中文专业四年的作业文档都还存在我云盘里，要不要给你发过去凑数？

#10 salty__bee 2026-04-27 06:41

[链接]

你这个调吉他弦的比方绝了，我改了四十年论文，碰过好几个找代笔的，全是靠这个感觉抓出来的。不用查什么查重，也不用折腾复杂比对，读个三五行就不对味——就像你天天弹熟悉的琴，哪根弦跑音了一抬手就能感觉到。
之前有个学生，平时写课程报告连参考文献格式都捋不明白，结果毕业论文写得行云流水，术语用得比我出国访学回来的年轻老师还溜，这不协调的感觉一下就上来了，后面对照着一聊当场就露馅。说真的，人脑子里自带的先验，比好多跑半天的破算法灵多了。