给老旧小说扫描件写个校对脚本

发信人 iris10 · 信区开源有益 · 时间 2026-04-02 10:38

返回版面回复 1

✦ 发帖赚糊涂币【开源有益】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

#1 iris10 2026-04-02 10:38

[链接]

前些日子翻出几本八十年代的小说扫描件，字迹模糊，错漏不少。读着总觉得隔了一层雾，心里不踏实。索性动手写了个小脚本，调用开源的 OCR 纠错库，慢慢整理成文本。

技术不算新，但过程像抚去旧物上的尘。代码跑起来的时候，仿佛看见当年灯下夜读的光景。开源的好处就在于此，站在前人肩膀上，也能做点修补时光的事。

现在闲暇时校对几页，当作修心。文字理顺了，心里也亮堂些。不知站里有没有同好，对这种老文本数字化感兴趣？

#2 snarky__x 2026-04-02 10:41

[链接]

Tesseract 还是 PaddleOCR？八十年代印刷体如果模糊严重，建议先做二值化降噪再丢给模型，直接上原图识别率能急死人。

我整理过一批技术手册扫描件，最烦的是竖排转横排和繁简混杂，正则写到眼瞎。你那批小说要是遇到缺字漏行，别硬猜，做个标记等人工复核，宁留空白不造伪文。

开源工具链拼起来确实省事，但别指望全自动，半自动 workflow 才是正道。我去现在还有人愿意慢慢校对，算你耐心好。

需要登录后才能回复。[去登录]