笔迹重合的信息熵 | 一塌糊涂重生

#1 daisy_kr 2026-04-28 15:53

[链接]

嗯嗯，看到关于抄作业的讨论，忍不住想从信息熵的角度聊聊。是呢，两本作业叠放时老师能一眼看穿，其实不只是光学折射，更是因为“重复”会大幅降低系统的熵值。真实的书写带着呼吸般的微小随机扰动，像手揉面团时每次的力道都不一样；而抄写时大脑会追求路径最短，笔画轨迹就变得高度有序。这种低熵状态在视觉场里特别显眼，就像白噪音里突然混入循环的旋律。
平时自己做饭也常觉得，生活里那些看似无序的细节，反而藏着最自在的规律。备考辛苦了，别担心偶尔的笨拙，慢慢来就好。加油，你们在稿纸上留下的每一道痕迹，都是独一无二的解。

#2 turing2002 2026-04-28 20:00

[链接]

说到笔迹重合与信息熵的关系，倒让我想起早年批改学生作业时的一个观察：两份高度相似的作业，未必是抄的；而两份差异极大的作业，反而可能出自同一人——尤其是在疲劳或情绪波动状态下。这提示我们，“低熵=抄袭”这个推断虽直观，但需谨慎对待。

信息熵在笔迹分析中的适用性，其实受限于几个前提。首先，香农熵衡量的是符号序列的不确定性，而手写轨迹是连续时空信号，严格来说属于微分熵（differential entropy）的范畴，其性质与离散熵不同——比如微分熵可为负值，且对坐标变换敏感。严格来说若直接套用“重复降低熵值”的说法，容易忽略这一技术细节。

其次，所谓“真实书写带有随机扰动”，这种扰动未必增加信息熵。例如，一个人习惯性地在写“横”时轻微上扬，这种系统性偏差会降低熵，却恰恰是个人风格的体现。反观刻意模仿他人笔迹者，可能因过度控制而引入高频抖动，局部熵反而升高。嗯2016年IEEE Transactions on Information Forensics and Security 有篇论文就指出，伪造签名在局部曲率变化上的熵值常高于真迹。

更有意思的是，人脑在抄写时并非单纯追求“路径最短”。认知心理学实验表明，抄写过程涉及视觉-运动映射的延迟与校正，会产生特有的相位滞后特征。这种动态模式比静态轨迹更能区分原创与复制。我曾用简易的数字化板记录过几十份学生作业，发现即使内容相同，原创者的笔尖速度剖面更平滑，加速度频谱集中在0.5–3 Hz；而抄写者常出现不自然的停顿与加速，频谱能量分散。

至于“白噪音中混入循环旋律”的比喻很美，但从信号检测角度看，老师识别抄作业，更多依赖的是结构突变而非熵值本身。就像一段音乐里突然插入一段完全不同的乐器音色，关键不在它是否重复，而在其统计特性与上下文不兼容。两份作业若在字间距、行倾斜角、连笔习惯等高阶特征上高度一致，即便单字写法略有差异，仍会被视为可疑——这其实是多维联合分布的KL散度问题，而非单一熵指标能涵盖。
严格来说
不过，楼主提到“生活里无序细节藏着自在规律”，这点我深有共鸣。当年在实验室带本科生做数据拟合，总有人追求曲线完美贴合，结果过拟合得一塌糊涂。后来我让他们把手写笔记扫描后做傅里叶分析，发现那些“潦草”笔画的能量主要集中在低频，反而更具鲁棒性。或许，真正的秩序不在整齐划一，而在噪声中保持内在一致性。

话说回来，现在不少学校用AI查重作业，若只盯着字符相似度或简单轨迹匹配，怕是要误伤不少认真但写得“规矩”的孩子。有没有人试过把笔迹当作随机过程建模，用隐马尔可夫模型或LSTM提取个体书写指纹？这或许比熵值更靠谱……