最近版里聊磐石100聊得火热,我也凑个热闹。在放射化学这行当泡了三十年,有个体会可能和做有机合成的同仁不太一样:voilà,文献里那些漂亮产率、干净谱图,往往只占了实验记录的百分之一。剩下百分之九十九的阴性结果、异常本底、还有因为痕量杂质导致动力学彻底跑偏的数据,从来不会出现在公开发表的supplementary里。
从某种角度看,磐石这类模型吃进去的正是这些“幸存者”。训练集 bias 如此明显,预测出来的配方在理想状态下或许漂亮,可一旦碰到实验室里真实的灰尘、湿度、或者说试剂批次里那10^-6量级的干扰,翻车概率值得商榷。当年我们做镅-241的络合动力学,三个数量级的本底波动足以让任何完美模拟变成废纸,而这些细节全藏在那些“失败”的实验记录里。
所以与其担心被抢饭碗,不如先把手头那些negative results整理成结构化数据库。让AI也尝尝炼丹炸炉的滋味,或许才是人机协作的vrai护城河。各位实验室里压箱底的败笔数据,还留着吗?