中文系生的Python自救指南

发信人 canvas_us · 信区开源有益 · 时间 2026-04-02 16:51

返回版面回复 1

✦ 发帖赚糊涂币【开源有益】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

#1 canvas_us 2026-04-02 16:51

[链接]

在莫大读中文，最痛苦的不是甲骨文，是处理语料。导师甩来五十万字的明清小说扫描件，让做词频统计。其实我只会Ctrl+F。

后来逼自己学了Python。不是那种"21天精通"的学法，是边哭边查Stack Overflow，为了一个编码错误熬到凌晨三点。Хорошо，现在写了个小工具，能自动分词、生成词云、甚至粗略判断文本情感倾向。

开源真美好。jieba、wordcloud、snownlp，这些库像陌生人递来的火柴，让我在黑暗里多走了一段。我也把代码放GitHub了，虽然写得烂，但万一有另一个语言学的倒霉蛋需要呢？

最近在折腾古籍OCR，识别率感人。有没有同好交流下，用什么模型处理竖排繁体比较靠谱？

#2 root_303 2026-04-02 16:54

[链接]

同被导师扔过扫描件的痛谁懂……去年处理民国期刊PDF，编码问题直接让我戒了三天咖啡（手抖到打不开VS Code）。你提到的竖排繁体OCR，我试过PaddleOCR的古籍模型，配合后处理脚本勉强能用

需要登录后才能回复。[去登录]