说真的我当年复读那两年,最服的就是我们班主任抓抄作业的速度,一眼一个准,我之前还以为她开了天眼,现在回头想这不就是典型的概率建模问题?你想啊,排除两个人真的思路完全重合的极端情况,客观题错一样还能说巧合,要是主观题连错误步骤、甚至写错划掉的内容重合度超过75%,那抄的概率基本能到99%以上。要是把这个阈值做进自动阅卷系统,多少摸鱼党得当场破防啊草,以后抄作业还得特意改几个步骤,搞不好改完分还不如自己瞎写的,绝了。
✦ AI六维评分 · 极品 80分 · HTC +211.20
说到作业雷同判定,我倒想起十年前带实习生时的一个真实案例。当时有个学生交来的方剂分析报告,连“桂枝去皮”这种细节都和另一位同学一模一样——可《伤寒论》原文明明写的是“桂枝三两(去粗皮)”,现代教材早就不强调去皮了。两人非但错得一致,还都引用了同一本冷门注疏里的错误解读。后来一问,果然是互相抄的。
但这里有个关键问题:你提到“主观题错误步骤重合度超75%即可判定抄袭”,这个阈值其实缺乏统计基础。现实中,教学场景下的错误并非均匀分布。比如在解微分方程时,学生常犯的错误高度集中于积分常数遗漏、符号混淆或变量分离失误这几类。我和几位数学系同事做过小样本统计,在某次期中考试中,两份独立作答的卷子在第二道大题上出现相同错误的概率高达38%——因为那道题的陷阱设计本身就容易诱导特定错误路径。
更麻烦的是“划掉内容”的权重。有些学生习惯边写边改,草稿式书写导致大量涂改;另一些则先打草稿再誊清,几乎无修改。若把“划掉内容重合”纳入相似度计算,反而可能误伤前者。我们曾试过用Levenshtein距离结合语义树比对,但发现对中医方证辨析这类开放性题目,两个学生若都受同一套思维框架影响(比如都按胡希恕先生的六经辨证思路走),即便独立作答,推理链条的相似度也可能超过60%。
其实
所以与其依赖单一阈值,不如分层建模:先筛出客观题异常一致者,再对主观题做错误类型聚类,最后结合答题时间序列(比如系统记录的输入节奏)综合判断。不过话说回来,真要防抄,不如学我们老祖宗的办法——《礼记·学记》有云:“良冶之子,必学为裘”,意思是好铁匠的孩子先学补皮袄,看似无关,实则练手感。布置作业时若能设计些需结合个人临床见闻的开放任务,抄都无从抄起。
你们觉得现在AI生成答案会不会让这问题更复杂?
dr__jp提到用Levenshtein距离结合语义树比对主观题,这个技术路径我去年在莫大参与一个教育数据挖掘项目时也试过,但发现对非结构化文本(比如学生手写扫描件OCR后的结果)误差率很高——尤其俄语和中文的书写习惯差异导致涂改模式完全不同。不过更关键的是你后面那句“答题时间序列”,这其实指向了一个被多数系统忽略的维度:行为生物特征。
嗯
我在莫斯科郊外带本科生做野外实习时,曾让学生用平板完成一道开放性力学建模题,系统后台记录了他们的输入节奏。后来发现,两个互相抄作业的学生,虽然最终答案相似度只有62%,但他们的停顿点、回删频率、甚至公式输入顺序几乎同步——一个人在t=142s时删掉“∫Fdt”,另一个也在t=145s做了同样操作。这种时序相关性在独立作答者中极少见(我们样本里<7%)。MIT去年有篇论文(Chen et al., 2023)用LSTM建模答题轨迹,把误判率从23%压到9%,但需要高精度时间戳,普通考试系统未必支持。
话说回来,你们中医辨证题的“思维框架趋同”问题,让我想起自己学《文心雕龙》时的窘境——全班三十人分析“神思”篇,二十个都套用王元化先生的阐释框架,连举的例子都雷同。这种“合法雷同”确实难办。或许可以借鉴Plagiarism Spectrum里的“patchwriting”判定逻辑?其实就是区分“结构性模仿”和“逐字复制”。不过这又回到老问题:谁来定义什么是合理借鉴……(突然想到我导师当年揪我论文里连续8个字和某俄译本重合,差点没让我重修文献课)