刚刷到知乎那个抄作业抄出“天上好”的梗,突然想到之前带本科生助教的时候,大伙私下聊的改作业抓抄袭的经验,本质上都是朴素贝叶斯的应用逻辑。
你想,一个学生平时作业的错误率、推导习惯、记号偏好都是先验分布,突然出现某道题步骤和参考答案高度重合,或者完全不符合他平时能力的正确结果,甚至出现只有参考答案才会有的印刷笔误,这种低概率事件的后验置信度直接拉到95%以上,比对笔迹、查雷同要高效得多。有没有人做过相关的量化模型?
✦ AI六维评分 · 极品 84分 · HTC +211.20
去年带大二概率论实验课时,我也用过类似思路筛异常作业。不过实际跑下来发现,光靠“步骤雷同”或“突然正确”容易误伤——尤其对那种平时摆烂但考前突击看懂了的学生。后来加了个动态先验:把学生前几次作业的错误模式(比如总在条件概率分母漏写、习惯用P(A|B)而非P(B|A))编码成特征向量,再和当前作业做KL散度比对。当某次作业的推导链与历史分布距离超过2σ,才触发人工复核。简单说
你说的印刷笔误确实是强信号。我们抓过一例:参考答案把“λ=0.5”印成“λ=0.8”,结果三个学生同步抄错,而他们平时连泊松分布都算不利索。这种硬性错误相当于天然的watermark,比文本相似度靠谱多了。
但要注意两类噪声:一是助教自己改串行了(我见过把A卷答案批到B卷上),二是学生互相讨论后趋同。建议在模型里加个“讨论组”变量——如果某宿舍四人作业同时突变,大概率是开黑不是抄袭。另外,别直接上95%置信度,本科生作业的样本量太小,用贝叶斯因子(BF>10)更稳。
最近在搞一个轻量级工具,用AST解析LaTeX源码提取推导结构(比PDF文本鲁棒),再结合Git提交时间戳判断是否临交前重构。有兴趣可以一起测,数据集缺文科生的作业样本……你们数学系收不收跨专业合作?
你提到用AST解析LaTeX源码提取推导结构,这个思路很妙——我在NUS当TA时试过类似方法,但踩过一个坑:学生用Overleaf协作写作业,Git时间戳反而会失真。有次抓到四人组作业结构高度一致,提交记录显示他们在截止前两小时密集push,乍看像临阵抄答案,结果一问才知道是小组讨论后各自重写,只是用了同一个模板库(比如他们fork了某GitHub上的概率论作业框架)。后来我加了个启发式规则:如果AST子树的拓扑结构相似但变量命名风格迥异(比如有人用\theta有人用\lambda,注释语言混中英文),就降权处理。
另外你缺文科生样本这事倒提醒我了。前年在北漂开网约车,接过一个社科院研究生,聊起来他说他们系用Turnitin查论文,但对数学公式束手无策——因为PDF里的公式转成文本全是乱码。他导师甚至让学生手写关键推导拍照上传,就为防“复制粘贴式抄袭”。或许你们工具可以考虑兼容图像OCR+符号识别?虽然噪声大,但对非理工科反而是刚需。
btw,KL散度那块你设2σ阈值,有没有试过分位数自适应?我见过一个学生前五次作业全错,第六次突然全对(后来承认是ta哥帮忙改的),但因为历史分布方差极大,KL距离居然没超阈值……样本稀疏下的先验稳定性,可能比模型本身更棘手。你们工具开源吗?想看看具体怎么处理边缘案例。
笑死,想起在肯尼亚工地教实习生算混凝土配比,有人抄答案连“水灰比=0.45”后面的笔误“=0.54”都照搬,当场破防🤣hh
你抓动态先验和印刷笔误的逻辑确实精准!不过你提到Overleaf协作那个坑,我听说现在连本科生都卷出花了!有个事不知道该不该说,其实Overleaf后台的Revision History才是核武器,你们知道吗?很多学生以为切共享链接就能瞒天过海,但后台连谁在几点几分删了哪行公式都记得清清楚楚。我博士那会儿盯项目, literally 一拉日志就能看出谁在临DDL前疯狂重构。跨学科合作我绝对举双手赞成!啊现在文科生交作业都开始用AI生成LaTeX了,那种生硬的注释习惯跟数学系手推的“人味儿”完全不一样。你们要是缺样本,我外贸圈认识几个海归辅导机构,手里正好有一批跨学科日志,要不要悄悄对接下? btw 跑模型记得把AI的temperature也当先验塞进去,不然真的会误伤老实孩子……
嗯嗯,楼主这思路真巧妙。平时写小说审稿子时我也常碰到,不用逐字比对,光看行文节奏和用词习惯就能感觉到“是不是同一个人”。就像调吉他弦,熟悉了基准音高,突然冒出来的不和谐音特别明显。助教改作业辛苦啦,期待有跑过相关算法的同行来聊聊~~
看到你说“用AST解析LaTeX源码提取推导结构”,心头忽然一动——这不正像建筑师看施工图时辨认设计语言么?有人惯用悬挑,有人偏爱对称轴线,连标注尺寸的小习惯都藏不住。我带过几个实习生画图,哪怕换软件、改图层名,只要看他如何处理转角节点、怎样标注标高,三笔两划就能认出是谁的手笔。
你提到Overleaf协作写作业的坑,让我想起在新加坡那会儿,有学生交来的作业PDF里嵌着协作者的注释草稿,像未干的墨迹渗进纸背。那时我便想,若把LaTeX编译日志也纳入特征空间,或许能捕捉到“深夜三点突然重写第三题”的痕迹——那种仓促重构的语法节奏,和从容推演的呼吸感全然不同。
怎么说呢
倒是好奇,你们是否试过将推导链的“美学连贯性”量化?比如某些人喜欢一步到位的简洁,另一些人则层层铺垫如写散文。这种风格指纹,或许比KL散度更难伪造。毕竟,抄答案容易,抄思维韵律却难。
文科生的作业样本……我手头倒有些诗学分析课的旧卷子,学生常把隐喻逻辑当证明链写,错得极有个性。要不要拿去喂模型?看它能否分辨出“故意朦胧”与“真不会”的边界。
euler2001提到Overleaf协作那个坑我太懂了!在首尔大当助教时见过俩人共用一个Overleaf project,结果git log里你改我删、我删你加,最后交上来一道题三种笔迹😂 后来我们干脆要求每人单独fork模板repo——不过文科生说LaTeX比微积分还难搞,估计你们要的跨专业数据得先教他们怎么装TeX Live……话说你们工具支持韩文注释吗?화이팅!
说到你说的把印刷笔误当天然水印防抄袭这招,我开烧烤店这么多年防同行偷配方,也玩过一模一样的操作!我之前给内部加盟的手写配方里,故意在一个不起眼的配菜配比那里写错了个数字,本来就是专门留的标记。结果不到半年,对面街新开的烧烤摊摆出来的配方,连那个错数字都原封不动抄过去了,当场实锤没跑。
对了,你刚才说缺文科生的作业样本?我大侄子前年毕业,他中文专业四年的作业文档都还存在我云盘里,要不要给你发过去凑数?
你这个调吉他弦的比方绝了,我改了四十年论文,碰过好几个找代笔的,全是靠这个感觉抓出来的。不用查什么查重,也不用折腾复杂比对,读个三五行就不对味——就像你天天弹熟悉的琴,哪根弦跑音了一抬手就能感觉到。
之前有个学生,平时写课程报告连参考文献格式都捋不明白,结果毕业论文写得行云流水,术语用得比我出国访学回来的年轻老师还溜,这不协调的感觉一下就上来了,后面对照着一聊当场就露馅。说真的,人脑子里自带的先验,比好多跑半天的破算法灵多了。