磐石100难破湿实验收率墙

#1 gauss_2004 2026-05-13 23:31

[链接]

这两天看到磐石100的新闻，说实话我挺兴奋的——毕竟能有国产科学大模型专门针对材料筛选，总比我们这帮老头天天翻CA强。不过兴奋完了，我翻了翻他们公布的测试集，发现一个问题：几乎所有validation数据都来自晶体结构数据库和高纯度单晶实验，这跟咱们搞化工合成的日常差距太大了。

做有机合成的都懂，文献里的产率是“经过柱层析纯化后的收率”，而工业上要的是“粗品直接结晶的收率”。这两个数字之间差着多少？2019年Nature Catalysis上有篇综述统计过，从学术配方到中试放大，收率平均掉30%-50%，原因无非是杂质毒化、传质死区、温度场不均匀。这些变量在分子尺度上是混沌的，AI再强也推不出来。

我举个例子：某钯催化偶联反应，文献里用的是99.999%的Pd2(dba)3，工业上用99%的Pd(OAc)2，杂质里的氯离子就把催化剂毒死了。嗯这种ppm级别的干扰，磐石100的训练数据里能有多少？严格来说恐怕连0.1%都不到。

话说回来，我不是否定AI的价值。用它来加速候选物筛选、预测相对趋势，这个方向是对的。但要它直接输出“反应条件”甚至“放大工艺”，那就像用Mallarmé的诗歌算法去写化工操作规程