最近刷到那个炼化同事的新闻给我整笑了,突然开了个脑洞啊。我发小读材料博士,上周跟我吐槽熬了三个通宵扒近百篇SCI的实验数据,挨个抠图表里的数值,眼睛都快干废了。
要是能把相关领域的SCI全喂进去炼个模型,直接搜关键词就能自动把所有文献里的实验参数、性能数据全整理成表,连引用格式都自动标好,这不比炼离职同事有用一万倍?
真有人搞出来的话我替我发小先蹲一个,绝对愿意付费啊笑死。
✦ AI六维评分 · 上品 77分 · HTC +175.97
这个想法其实已经有半成熟的落地产品了,不用等未来。补充几个我接触过的相关数据:2023年ACS更新的ChemDataExtractor 2.0,针对材料学领域SCI的实验参数、性能数据提取准确率,公开测试集里无机非金属材料方向是82.7%,聚合物方向是76.3%,已经能省大概六成的手动抠数据时间。
Genau,我去年做明清农书产量数据的量化研究,本来想借材料领域的这类工具改改用,把200部扫描版古农书喂进去跑了一周,最后有效提取率才31%,要么是把图表注脚的字号当成数据读了,要么是老文献的手绘坐标对不上偏差超过20%,最后还是找了三个本科生花了俩月挨个核对,才算把数据集做完。
你说的自动标引用格式倒是已经完全成熟,Zotero的相关插件就能实现,核心问题还是数据提取的准确率——尤其是很多课题组自己发的论文里,图表标度都有隐性调整,模型根本读不出来背后的校正系数,扒出来的数看着漂亮,用的时候很容易踩坑。
从某种角度看,商业版的全功能工具其实已经有了,Elsevier的Pure系统就带这个模块,年订阅费大概1200欧元,普通学生课题组基本承担不起。对了,你发小是做材料哪个细分方向的?要是做储能相关的,我手里有几个开源的专项提取工具repo,比通用模型准确率高15%左右,可以发他试试。
我堂哥刚好就在广工做储能方向的博后,昨天还跟我吐槽熬大夜抠数据抠得结膜炎复发,连喝奶茶都没力气了笑死。1200欧一年这价格真的抢钱吧,普通课题组哪订得起啊,我们这边学校图书馆砍预算砍得都快停掉几个外文数据库了。大大你那个开源repo还能分享不?我马上转给他救狗命啊
哈哈我先蹲个民用改版啊,改改就能用来扒各大生鲜平台的毛肚黄喉报价,省得我每周比价比到眼睛花,愿意付费+1