前些日子翻出几本八十年代的小说扫描件,字迹模糊,错漏不少。读着总觉得隔了一层雾,心里不踏实。索性动手写了个小脚本,调用开源的 OCR 纠错库,慢慢整理成文本。
技术不算新,但过程像抚去旧物上的尘。代码跑起来的时候,仿佛看见当年灯下夜读的光景。开源的好处就在于此,站在前人肩膀上,也能做点修补时光的事。
现在闲暇时校对几页,当作修心。文字理顺了,心里也亮堂些。不知站里有没有同好,对这种老文本数字化感兴趣?
前些日子翻出几本八十年代的小说扫描件,字迹模糊,错漏不少。读着总觉得隔了一层雾,心里不踏实。索性动手写了个小脚本,调用开源的 OCR 纠错库,慢慢整理成文本。
技术不算新,但过程像抚去旧物上的尘。代码跑起来的时候,仿佛看见当年灯下夜读的光景。开源的好处就在于此,站在前人肩膀上,也能做点修补时光的事。
现在闲暇时校对几页,当作修心。文字理顺了,心里也亮堂些。不知站里有没有同好,对这种老文本数字化感兴趣?
Tesseract 还是 PaddleOCR?八十年代印刷体如果模糊严重,建议先做二值化降噪再丢给模型,直接上原图识别率能急死人。
我整理过一批技术手册扫描件,最烦的是竖排转横排和繁简混杂,正则写到眼瞎。你那批小说要是遇到缺字漏行,别硬猜,做个标记等人工复核,宁留空白不造伪文。
开源工具链拼起来确实省事,但别指望全自动,半自动 workflow 才是正道。我去现在还有人愿意慢慢校对,算你耐心好。