说到标准化这事,我脑子里第一个蹦出来的不是医疗器械,是当年通信行业的3G标准大战。行吧那叫一个热闹,欧洲推WCDMA,美国搞CDMA2000,中国硬生生搞出个TD-SCDMA,三家谁也不服谁,结果呢?手机厂商得做全网通,运营商建三种基站,消费者花冤枉钱,全行业为这个“标准割据”买单了好几年。
所以看到楼主的帖子,我第一反应不是“标准化好啊终于有人管了”,而是“这尺子谁来定、怎么定”。
医疗器械尤其是AI相关的,跟通信还不完全一样。通信标准是技术路线之争,你选错了顶多信号差点网速慢点。但医疗标准一旦定偏了,那是要出人命的。也是醉了我查过FDA近几年对AI医疗器械的审批数据,很有意思——到2023年底FDA批准的AI/ML医疗设备超过500个,但真正涉及深度学习且需要持续学习更新的,审批进度慢得离谱。为什么?因为审评部门自己也没底,算法的可解释性边界在哪,临床验证的golden standard怎么设,这些东西全球都没共识。
楼主说“尺子的刻度开始清晰”,我补充一句:现在只是知道需要一把尺子,但刻度的粗细、零点在哪、读数怎么校准,这三个核心问题一个都没解决。
哈哈哈
先说刻度粗细。我见过某三甲医院影像科,同时跑着三家AI辅助诊断系统,肺结节检出率这家92%那家87%,同一个病人的CT片子进去,出来的标注框位置都不一样。你说哪个准?没有golden standard的情况下,标准定严了就是扼杀创新,定松了等于没定。这个度怎么把握,工做组里写代码的和拿手术刀的能不能吵出结果,我持观望态度。太!
再说零点问题。无语医疗器械标准化最难的不是技术参数,是评价基准。传统器械有明确的物理量——血压多少mmHg、血糖多少mmol/L,数字摆在那。但AI模型输出的是概率,0.8的置信度到底意味着什么?这个阈值跟厂商的训练数据分布强相关,你让一个在广东某三甲数据上训练的模型去东北的县级医院跑,同样阈值下性能可能崩得妈都不认识。真的假的所以标准化的关键不是统一阈值,而是统一“阈值如何设定”的方法论。服了
至于校准问题,这就更头疼了。AI医疗器械跟传统器械最大的区别是它会“变”——模型更新了怎么办?重新审批一遍?那企业别干了。不审?万一新模型出问题谁负责?FDA现在搞的预定变更控制计划(PCCP)算是个折中方案,允许企业在申报时预先说明未来可能改哪些参数、怎么验证,审评部门提前认可这个框架。但这个机制在国内还处于探索阶段,这次成立的工作组如果能把这个路径理清楚,比制定一百个数据格式标准都管用。
说到数据格式,楼主提到COCO和私有格式的混乱,这个我倒觉得不是标准化能解决的。技术迭代太快了,你今天把格式写进标准,明年transformer架构一升级,标准又得改。更聪明的做法是定“互操作性协议”而不是“统一格式”——就像TCP/IP协议不关心你用的什么浏览器,只要按规矩发包就能通信。医疗AI也需要这样的中间层标准,而不是强迫所有人用同一套标注工具。
笑死
最后扯一句脑机接口。楼主说这个领域需要标准先行,我举双手双脚赞成,但理由不太一样。脑机接口现在最大的问题不是数据格式不统一,是伦理和安全框架完全空白。Neuralink已经搞人体试验了,国内也有团队在做侵入式脑机芯片,但至今没有明确的临床试验审评指导原则。这种前沿领域,标准化的优先级应该是:安全底线 > 数据规范 > 性能指标。别等到哪天出了事故再倒推标准,那代价谁都承受不起。
说真的,看到这个工作组成立我还是挺高兴的,至少说明监管层意识到“不能等产业成熟了再补课”。但标准制定是门艺术,不是科学——太死板会锁死创新,太灵活会形同虚设。牛啊希望这个工作组里多几个既懂代码又上过临床的人,而不是两拨人各说各话最后妥协出一个四不像的文件。
你们觉得呢?楼里有没有在医院信息科或者做医疗AI的同学,聊聊实际情况?我特想知道现在医院采购AI系统的时候,接口对接是不是真的像楼主说的那么惨烈。