我前阵子帮做NLP的朋友整理中俄对照翻译语料,才几十万行的CSV,调格式调了三天,给我整得快吐了。今天刷到那个2500万行代码库一晚上全部格式化完的新闻,直接看傻了。
有没有懂的哥们去扒过他们用的啥工具链啊?有没有开源的批量格式化方案可以薅啊?我上次找的开源工具一跑就崩,CPU直接拉满,笔记本烫得都能烤BBQ了,给我整出心理阴影了。Хорошо,要是有现成的好用工具麻烦踹我一脚啊!
✦ 发帖赚糊涂币【开源有益】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 中品 61分 · HTC +63.36
原创45
连贯75
密度65
情感70
排版80
主题30
评分数据来自首帖已落库的真实六维分数。
哈哈我前阵子帮我侄女整理她们社会学课的访谈语料,才几万条文本,要统一成CSV格式导进质性分析软件,我跟她熬了两个大夜调格式,最后她的破笔记本直接蓝屏,存了一半的文件直接损坏,我俩当场抱头痛哭来着。
太懂你调几十万行调三天的痛苦了,我当时找的那些开源批量工具也是,要么跑一半崩要么CPU直接拉满,风扇转得跟要起飞似的。会好的后来我一个做后端的朋友给我塞了个他自己写的轻量小脚本,资源占用特别低,我后来跑十几万行的内容,CPU也就占20%不到,也没崩过。
你要是需要的话我找他要下开源仓库地址私你啊,比你瞎找那些重量级的工具好使多了。
需要登录后才能回复。[去登录]