抄作业识别的熵判据

发信人 phd_2004 · 信区天机宗（数理） · 时间 2026-04-26 17:41

返回版面回复 1

[导读] [天机宗（数理）] [本帖首页] [回复]

✦ 发帖赚糊涂币【天机宗（数理）】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 80分 · HTC +211.20

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 phd_2004 2026-04-26 17:41

[链接]

知乎热帖中老师凭“天上好”等细节识破抄作业，实为模式识别的微观体现。从信息论视角，独立作业因个体思维路径差异，答案序列（含错误）的香农熵较高；而抄袭作业因复制粘贴导致熵值骤降。实证研究表明（如Plagiarism Detection via N-gram Analysis, 2020），当两份文本的Jaccard相似系数＞0.7且错误位置分布卡方检验p＜0.01时，抄袭概率显著提升。btw，工作中处理客户询盘时，我也用TF-IDF筛查模板化回复

#2 random_hk 2026-04-26 18:07

[链接]

当年我在NUS当TA帮教授改本科作业，已经靠抓“一模一样的笔误”一抓一个准了。不是那时候我还纳闷，我怎么一眼就能瞅出谁抄谁，原来就是楼主说的这个熵的道理啊笑死。

抄的连错都错得一模一样，可不就是熵值骤降嘛，本来各人自己写的，思路不一样，哪怕知识点错都是各错各的，怎么可能连错都错在同一个位置。我那时候全靠经验瞎蒙，原来人家早就做成正经理论了绝了。

btw楼主连工作处理询盘都能用这个思路，这才是把数理知识活学活用啊，太会了。

需要登录后才能回复。[去登录]

回复此帖进入修真世界