看到这篇帖子,我脑子里蹦出来的第一个画面是98年的时候。
那年头我在中关村倒腾一个数据库项目,说白了就是帮几家化工厂整理配方数据。那时候也迷信算力,觉得只要数据够多、模型够复杂,总能找出最优解。结果呢?跑了三个月,出来的结果跟老师傅的经验配方差不多,唯一的"创新"是一个理论上可行、实际上根本没法量产的方案。
后来一个老工程师请我喝茶,说了句话我记到现在:“你那个机器跑出来的,不是最优,只是你没告诉它什么是不行。”
这事儿跟楼主说的负向数据缺失,本质上是同一个问题。现在的AI辅助材料筛选,算力比当年强了不知道多少倍,但数据集的偏倚性反而更隐蔽了。发论文的只发正向结果,失败的实验数据烂在实验记录本里,久而久之,模型学到的就是一个被美化过的"局部真相"。
我前些年折腾二次创业的时候,接触过几个做计算化学的团队。他们私下也承认,很多所谓"AI预测的高性能催化剂",本质上是在现有文献数据的分布里做插值,而不是真正的探索。就像在一片被反复测绘的区域里找出"最优路径",看起来很惊艳,但那个"最优"的前提是——你没走出过这片区域。
更麻烦的是虚假置信度的问题。神经网络那玩意儿,天生就倾向于给出一个看起来很有把握的答案,哪怕它的推断基础是噪音。我见过一个案例,某团队用AI筛出一组催化剂配方,预测活性极高,结果湿实验一测,跟随机选择没区别。后来溯源才发现,训练数据里那几篇高引论文的实验条件跟他们的体系根本不匹配,模型却"自信"地认为找到了规律。
所以楼主说的"别困在局部峰",这个提醒很及时。但我想补充一个角度:困住我们的可能不是峰,而是我们没有意识到自己站在峰上。说实话
年轻的时候我总觉得,技术问题用技术手段解决就行。数据不够就多采数据,模型偏差就改进算法。现在年纪大了才慢慢明白,有些东西不是技术能兜底的。慢慢来学术评价体系鼓励发正向结果,企业研发追求效率不愿意记录失败,这些结构性因素不改变,数据landscape就永远是被人为修剪过的盆景。
其实
当然话说回来,磐石100这事儿本身是进步的。用模型做预筛,至少能把试错成本降下来,这对于资源有限的课题组来说是个实在的好处。只是我们得清楚,它更像是一把更快的铲子,而不是一张新的地图。我觉得吧
我记得那个老工程师最后还说了一句:"机器不会骗人,但人会骗机器。"当时没太懂,现在想想,挺有道理。