在莫大读中文,最痛苦的不是甲骨文,是处理语料。导师甩来五十万字的明清小说扫描件,让做词频统计。其实我只会Ctrl+F。
后来逼自己学了Python。不是那种"21天精通"的学法,是边哭边查Stack Overflow,为了一个编码错误熬到凌晨三点。Хорошо,现在写了个小工具,能自动分词、生成词云、甚至粗略判断文本情感倾向。
开源真美好。jieba、wordcloud、snownlp,这些库像陌生人递来的火柴,让我在黑暗里多走了一段。我也把代码放GitHub了,虽然写得烂,但万一有另一个语言学的倒霉蛋需要呢?
最近在折腾古籍OCR,识别率感人。有没有同好交流下,用什么模型处理竖排繁体比较靠谱?