看到百年前的数据整理，心里挺感慨的

#1 warm_cn 2026-05-02 21:34

[链接]

嗯嗯，刚刷到这个报纸提取的帖子，虽然是旧闻了，但想到能保存这么多文字，还是忍不住想聊聊。以前做程序员那五年，总觉得代码跑得快就是本事，现在转行写小说，才发现把信息存得久一点更难。这些老报纸里的字，有些编码估计早就乱了，处理起来肯定花了不少功夫。就像咱们平时搭开源项目，有时候不是为了多快，而是为了有人以后还能用得上。大家辛苦整理这些数据，感觉像是在给未来留盏灯吧。嗯嗯不知道有没有人试过把这些历史文本拿来做点有趣的实验？比如训练个识别古文的模型之类的？(｡•̀ᴗ-)✧

#2 penguin_2001 2026-05-03 06:13

[链接]

哈哈楼主这感悟我懂！我开餐厅的，经常看到老菜单就感慨，以前手写的配方现在都快看不清了…转行前我也搞过一阵子数据，当时觉得备份麻烦得要死，现在才觉得真香

#3 haha_sr 2026-05-03 06:38

[链接]

哈哈看到楼主提写小说，我最近也囤了好几本历史小说没看（笑死）。不过你提到训练古文模型这个想法绝了，我认识一哥们儿就在搞这个，用老报纸训练识别错别字，结果模型自己学会了写打油诗，现在天天在群里发AI生成的藏头诗，把我们都整不会了（捂脸

#4 dr_cn 2026-05-03 07:24

[链接]

刚好最近在做digital public goods的法经济学研究，这里补两个有意思的观察。
很多人觉得历史文本数字化最大的瓶颈是OCR识别、编码校正这类技术问题，其实从科斯的交易成本（transaction cost）框架看，产权确权的成本才是大头。之前查过美国国会图书馆19世纪地方小报数字化项目的公开预算，光是梳理版权归属、对接私人藏家和各地档案馆的沟通确权成本，就占了总预算的47%，技术处理成本反而只占32%。国内很多民间整理项目其实没碰到这个问题，因为大部分清末民国的文本早就过了版权保护期，反而省了一大笔确权费用，也算意想不到的制度红利。
另外楼主提到开源项目做出来是给后人用，其实刚好戳中了公共品私人供给的激励痛点。我之前接触过一个整理民国法律公报的民间小团队，7个人用爱发电做了3年，全靠一笔10万的小额民间资助撑着，最后成果全部CC0授权放出来。问他们图什么，说最高兴的是有个南大的法学生用他们的数据集写了民国佃农纠纷的论文，专门在致谢里提了他们项目，这种非货币的边际收益，对这类项目参与者的激励远大于资金回报。
对了楼主说的历史文本应用，现在已经有学者用清末到民国的地方报里的讼师广告、地权转让公告做变量，测当时基层司法的实际效率，比用官方档案的准确率高多了，毕竟官方档案的留存是有筛选的，民间文本反而更接近真实市场状态。
你们有没有见过整理老商事票据的开源项目？我最近做近代商事纠纷的研究找数据集找得头大。

#5 couch_ful 2026-05-03 09:05

[链接]

dr_cn, post: 123819

刚好最近在做digital public goods的法经济学研究，这里补两个有意思的观察。

很多人觉得历史文本数字化最大的瓶颈是OCR识别、编码校正这类技术问题，其实从科斯的交易成本（transaction cost）框架看，产权确权的成本才是大头。之前查过美国国会图书馆19世纪地方小报数字化项目的公开预算，光是梳理版权归属、对接私人藏家和各地档案馆的沟通确权成本，就占了总预算的47%，技术处理成本反而只占32%。国内很多民间整理项目其实没碰到这个问题，因为大部分清末民国的文本早就过了版权保护期，反而省了一大笔确权费用，也算意想不到的制度红利。

另外楼主提到开源项目做出来是给后人用，其实刚好戳中了公共品私人供给的激励痛点。我之前接触过一个整理民国法律公报的民间小团队，7个人用爱发电做了3年，全靠一笔10万的小额民间资助撑着，最后成果全部CC0授权放出来。问他们图什么，说最高兴的是有个南大的法学生用他们的数据集写了民国佃农纠纷的论文，专门在致谢里提了他们项目，这种非货币的边际收益，对这类项目参与者的激励远大于资金回报。

对了楼主说的历史文本应用，现在已经有学者用清末到民国的地方报里的讼师广告、地权转让公告做变量，测当时基层司法的实际效率，比用官方档案的准确率高多了，毕竟官方档案的留存是有筛选的，民间文本反而更接近真实市场状态。

你们有没有见过整理老商事票据的开源项目？我最近做近代商事纠纷的研究找数据集找得头大。

我靠你问的老商事票据整理项目我上周逛github刚刷到啊！几个学经济史的在校生搞的，连当年上海钱庄的零散流水都扒出来好多。

#6 sudo28 2026-05-03 09:27

[链接]

别盯着OCR，清末铅字生造字才是encoding地狱。Unicode扩展区根本装不下，很多项目被迫搞PUA映射，跟维护legacy dependency一样痛苦。见过直接把异形字形存SVG绕过charset的，思路很clever。显示不出来就试试IDS描述，丑是丑点，至少data不会丢。

#7 velvet70 2026-05-03 11:07

[链接]

dr_cn, post: 123819

刚好最近在做digital public goods的法经济学研究，这里补两个有意思的观察。

很多人觉得历史文本数字化最大的瓶颈是OCR识别、编码校正这类技术问题，其实从科斯的交易成本（transaction cost）框架看，产权确权的成本才是大头。之前查过美国国会图书馆19世纪地方小报数字化项目的公开预算，光是梳理版权归属、对接私人藏家和各地档案馆的沟通确权成本，就占了总预算的47%，技术处理成本反而只占32%。国内很多民间整理项目其实没碰到这个问题，因为大部分清末民国的文本早就过了版权保护期，反而省了一大笔确权费用，也算意想不到的制度红利。

另外楼主提到开源项目做出来是给后人用，其实刚好戳中了公共品私人供给的激励痛点。我之前接触过一个整理民国法律公报的民间小团队，7个人用爱发电做了3年，全靠一笔10万的小额民间资助撑着，最后成果全部CC0授权放出来。问他们图什么，说最高兴的是有个南大的法学生用他们的数据集写了民国佃农纠纷的论文，专门在致谢里提了他们项目，这种非货币的边际收益，对这类项目参与者的激励远大于资金回报。

对了楼主说的历史文本应用，现在已经有学者用清末到民国的地方报里的讼师广告、地权转让公告做变量，测当时基层司法的实际效率，比用官方档案的准确率高多了，毕竟官方档案的留存是有筛选的，民间文本反而更接近真实市场状态。

你们有没有见过整理老商事票据的开源项目？我最近做近代商事纠纷的研究找数据集找得头大。

dr_cn说这些整理像是在给未来留盏灯，让我想起在非洲援建时住过的那个村子。当地老人把一张泛黄的殖民时期手写地契用塑料布裹了五层，藏在教堂的铁皮柜里。没有档案馆，没有数字化，连电都是奢侈品，那张纸就是他们全部的“确权”。您提到美国国会图书馆的确权成本能占到47%，我却在那一刻觉得，能用一笔钱把“保存”的事算得清楚，本身就是一种文明的奢侈。

所以读到国内清末民国文本因为过保而省下一笔确权费用，我不觉得这只是法经济学账簿上的制度红利，倒更像一场隔世的赦免。曾经锁在藏书楼里的字，因时间流逝而挣脱了枷锁，像候鸟重新飞回公共的天空。您说的那个七人团队，用爱发电三年，仅靠十万资助撑着，最后因为南大学生一句致谢便觉得值得——这让我想起非洲夜里围着篝火讲故事的老人。他们也不要报酬，只是不想让某些事“从此没了”。CC0授权在论文里或许是公共品供给的策略，在我眼里却更像一种慈悲，把私藏的月光重新洒向旷野。话说回来

说来惭愧，我自己是个囤书不看的人，书架上落灰的纸页与这些整理者守护的数据集，成了一种奇妙的对照。他们怕信息丢失，我却在信息过剩里怠惰。但也许正是这些看起来“无用”的整理，让地权转让公告里的尘埃被轻轻吹去，露出底下活生生的人间。官方档案是筛选过的记忆，而从民间文本里打捞起来的碎片，才是老百姓真正活过的证据。
我觉得吧
您问有没有整理老商事票据的项目，我倒没见过。但我总忍不住想象，那些票据上的墨水字迹，应该和非洲那张地契一样重。重到值得有人为之熬过三年长夜。

#8 eyes 2026-05-03 11:49

[链接]

我前阵子找民国天津的市井素材写小说，特意翻了这批数字化的老报纸，你们猜我挖到啥了？一九三几年就有天津的学生党攒钱买便携烤炉，周末坐城郊火车去西青搭帐篷烤羊肉的报道，连当时烤串刷的酱料配方都登在副刊上。我上周露营特意照着方子调了酱，烤出来的味儿居然比我常去的那家BBQ店还正。说真的你们搞模型的要是愿意挖…，绝对能扒出一堆没人知道的老生活玩法，不比识别古文有意思？

#9 oldschool_bee 2026-05-03 12:46

[链接]

楼主说给未来留盏灯，我端着杯子看了半晌，想起年轻时在旧馆翻缩微胶片的日子。
坦白讲仔细想想
那机器轰隆隆转着，屏幕泛着青白的光。有天翻到一份民国二十六年的小报副刊，不是什么大新闻，角落里竟挤着一则裁缝铺的迁居启事。说是苏州有位张师傅，因战事迁来上海霞飞路，‘承蒙老主顾不弃，新址照旧量体裁衣’，统共三十来个字，还缺了两处墨。我觉得吧我当时盯着那屏幕，竟有些恍惚。正史里哪有张师傅这号人呢？可偏偏是这几十个字，把一个大时代底下普通人的筋骨给立住了。
怎么说呢
这些年泡在史料堆里，越发觉得老报纸里最金贵的从来不是头版社论，而是这些鸡毛蒜皮。征婚、寻人、药铺仿单、书店打折，还有文人笔战互相斗气。这些东西要是没被整理出来，或者让编码之乱给埋了，那才是真的断了香火。代码跑得快不快，我是门外汉，说不上来，但我知道，张师傅的启事留住了，就是留住了一段人间烟火。
别急
至于拿古文训练模型，我倒有个不成熟的念头：与其先让机器读子曰诗云，不如教它认认这些启事、仿单、白话告示。真要把这些’俗文字’里的弯弯绕绕读明白了，那才叫接地气。不过这事儿急不得，老茶得焖，猛火催不出香气。

不知现在有没有人专门整理过这类边角料？要是有了开源数据集，真想下载下来，夜里泡壶茶慢慢看。

#10 spy_z 2026-05-03 16:36

[链接]

哎你说的手写老配方看不清我太有共鸣了！上个月我为了写新文找素材，跑了苏州观前街那家开了快六十年的三黄鸡店，老板掏出来他爹手写的配方本，半本都浸了油污，好多字边缘都糊成一团，他说前几年总觉得这种老本子要攥在手里才踏实，让他扫了存电子档总嫌麻烦，去年梅雨季店里漏雨泡了半抽屉杂物，那本子刚好压在底下，阴干之后一半的页都粘在一起揭不开，急得他嘴上起了好几个大泡。

说起来我当年读博的时候也吃过亏，跑了大半年的田野调查资料全存在笔记本电脑里，有次去露营放帐篷外面被人顺手拎走了，哭了快三天才缓过来，之后不管啥资料我都至少存三个地方：云端一份，两个移动硬盘分别放家里和我妈那，就连现在写小说的存稿都是写完就同步，生怕出点岔子。
嘛
哦对了我听说最近有个开源小团队在做民间老菜谱的数字化项目，专门收这种老字号的手写配方，扫完了还帮忙校正模糊的字，标注当年的用料备注，现在已经整理了快三千份了全开放，你要是感兴趣我私你链接啊？

#11 haha_bee 2026-05-03 20:17

[链接]

哈哈penguin哥你这经历绝了！我夜校老师也老说手写教案快看不清了，上次还拿放大镜给我们看90年代的板书照片，笑死。不过你从数据转行开餐厅也太酷了吧，菜单数字化了没？我最近在画老菜单当素描练习，那些褪色的钢笔字特有味道