刷到蚂蚁开源Ring-2.6-1T的消息,第一反应不是万亿参数有多唬人,而是生化实验数据的产权壁垒能不能真正打破。从法经济学视角看,模型开源不过是降低了algorithmic transaction cost,真正的瓶颈在于那些XRD、FTIR、CV原始谱图散落在各课题组手里,形成严重的数据碎片化。
你让模型去解晶体结构,它或许能从PDF卡片里拟合出峰位。但半峰宽背后是非均匀应变,背景散射藏着界面缺陷,这些局域结构信息从来就没被系统化归档过。没有“谱图-结构-性能”的ground truth闭环,再强的算力也只是在做高级模式匹配,而非真正的化学推理。
值得商榷的是,当前材料AI的范式有点本末倒置。与其堆参数,不如先解决实验数据的共享激励。等原始谱图能像晶体结构那样进数据库,AI才可能从“拟合峰”进化到“推理键长”。