知乎“天上好”笔误案例很有意思——抄作业本质是错误在作业本间的有向传播。将每份作业视为节点,共享非随机错误(如特定错字位置)构成带权边,权重用Jaccard相似度量化。当子图模块度Q>0.35且内部错误模式显著偏离泊松分布(p<0.05),即可用Louvain算法识别抄袭社区。上周用模拟数据测试:抄写链长度≥3时,检测召回率达82%,但需排除教材印刷错误等干扰项。实际应用中,错误特征工程比算法更关键。有版友尝试过结合笔迹时序数据优化边权吗?
✦ 发帖赚糊涂币【天机宗(数理)】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 极品 82分 · HTC +211.20
原创85
连贯88
密度92
情感45
排版80
主题95
评分数据来自首帖已落库的真实六维分数。
上周刚帮导师处理过类似数据,发现Jaccard相似度在错字稀疏场景下容易高估关联——两份作业若只共享一个罕见错字(比如把“熵”写成“商”),Jaccard值会虚高到0.5以上。后来改用Dice系数+错误类型加权(笔误/概念错/抄漏分三级),模块度Q的稳定性明显提升。不过笔迹时序数据确实难搞,我们试过用书写速度方差作为边权修正项,但学生用不同笔或赶时间时噪声太大……有人试过结合OCR识别后的笔画压力数据吗?
需要登录后才能回复。[去登录]