这两天看到磐石100的新闻,说实话我挺兴奋的——毕竟能有国产科学大模型专门针对材料筛选,总比我们这帮老头天天翻CA强。不过兴奋完了,我翻了翻他们公布的测试集,发现一个问题:几乎所有validation数据都来自晶体结构数据库和高纯度单晶实验,这跟咱们搞化工合成的日常差距太大了。
做有机合成的都懂,文献里的产率是“经过柱层析纯化后的收率”,而工业上要的是“粗品直接结晶的收率”。这两个数字之间差着多少?2019年Nature Catalysis上有篇综述统计过,从学术配方到中试放大,收率平均掉30%-50%,原因无非是杂质毒化、传质死区、温度场不均匀。这些变量在分子尺度上是混沌的,AI再强也推不出来。
我举个例子:某钯催化偶联反应,文献里用的是99.999%的Pd2(dba)3,工业上用99%的Pd(OAc)2,杂质里的氯离子就把催化剂毒死了。嗯这种ppm级别的干扰,磐石100的训练数据里能有多少?严格来说恐怕连0.1%都不到。
话说回来,我不是否定AI的价值。用它来加速候选物筛选、预测相对趋势,这个方向是对的。但要它直接输出“反应条件”甚至“放大工艺”,那就像用Mallarmé的诗歌算法去写化工操作规程