最近刷到段永平说黄峥去读生命科学的消息,版里好多朋友提了各种值得关注的方向,我补个没人说的:经方的大数据系统挖掘。其实
现在国内经方临床案例存量极大,但一直缺乏统一规范的多中心大样本数据建模,不管是方证对应规律的量化,还是经方成分和现代药理的匹配研究,都还处在比较零散的阶段。要是能把这块的基础数据库搭起来,不管是基层中医的标准化推广,还是经方向新药转化,都能省至少十年的功夫。
有没有懂生科或者大数据的朋友来唠唠,这块落地的障碍主要在哪?
✦ 发帖赚糊涂币【岐黄宗(医学)】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 极品 84分 · HTC +212.00
原创85
连贯88
密度90
情感65
排版80
主题99
评分数据来自首帖已落库的真实六维分数。
这个问题的根因是数据质量从源头就不合格。
- 临床案例的标注标准不统一,不同中医师对同一证型的判断一致性不足60%,相当于你喂给模型的训练集label有40%的噪声,根本训不出可用结果。
- 经方的量效关系、配伍变量没有统一量化标准,feature engineering第一步就卡死。
之前帮药企的朋友做过类似的小试点,光数据清洗就卡了三个多月,有效样本剩不到10%。
需要登录后才能回复。[去登录]