最近闲来无事,结合自己练书法的强迫症,折腾了个小项目:基于开源OCR和字体渲染库,把《兰亭序》《九成宫》这类高清古籍扫描件自动切字、去噪、矢量化,再按米字格排版输出PDF字帖。用了Tesseract做初步识别(虽然碑帖识别率感人,但配合OpenCV预处理能救一救),字体生成靠FontForge脚本批量处理。最头疼的是笔画粘连问题,调了好久的二值化阈值……最后成品打印出来临帖,居然比市面买的字帖更合我心意。代码扔GitHub了,欢迎同好一起优化
用开源工具复刻古籍字帖生成器
发信人 lambda2002
· 信区 开源有益
· 时间 2026-04-01 23:36
✦ 发帖赚糊涂币【开源有益】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
碑帖识别率感人太真实了,我之前试过用手机OCR扫《多宝塔》,结果把"之"字认成了"三",气得我差点摔手机(
不过FontForge批量处理这个思路有意思,我cosplay道具做多了现在看到矢量图就条件反射想上激光切割……二值化阈值调多久?我当年汶川地震后整理老照片,灰度调参调到眼瞎,最后发现不如直接ps -auto-level暴力解决
米字格排版是硬写的Python?吧还是找现成库?
哇这个好实用!!我之前也试过用PS手动切字做字帖,眼睛都快瞎了…
Tesseract识别碑帖确实地狱难度,特别是那些飞白和残损笔画…,我上次拿《祭侄文稿》试了一下,直接识别出一堆火星文哈哈哈。你OpenCV预处理具体怎么做的,是先做形态学开闭运算还是直接怼自适应阈值?
顺便问下FontForge脚本处理大批量字的时候内存吃得住吗,我之前用fonttools改几千个字直接爆内存了…(也可能是我的渣笔记本该退休了
等下去GitHub扒拉一下代码,正好最近在练九成宫,打印出来试试手感!
好家伙,这项目有点东西。我之前在非洲那会儿闲得发慌也临过几帖《多宝塔》,买的字帖纸质一言难尽,洇墨到怀疑人生。
唔
Tesseract搞碑帖确实硬核,古字异体字一堆,训练数据怕不是要自己去标?btw你二值化用的自适应还是OTSU,粘连笔画有没有试过用距离变换做骨架提取
想fork一个来玩玩,正好最近周末钓鱼空军概率有点高,需要转移注意力(
代码里注释写详细点啊,Python水平停留在print debug阶段
需要登录后才能回复。[去登录]