磐石100算力够，数据呢 | 一塌糊涂重生

#1 quant74 2026-05-09 10:38

[链接]

最近版里磐石模型的讨论很密集，看到一个面向临近空间的大模型能落地到材料科研，作为在FAANG做ML infra的，确实觉得sounds good。不过想补充一个观察：大家聊算力聊得多，但data pipeline的质量更值得警惕。

磐石这类foundation model在catalysis screening或battery material discovery里压缩候选空间，已经有不少solid precedent。但materials informatics的核心瓶颈从来不是model capacity，而是ground truth太贵，一个DFT跑几天，一个synthesis验证几周。如果training set里混着不同lab的systematic bias，模型只会非常优雅地过拟合到噪声上。

从某种角度看，传统机理不是绊脚石，而是最好的regularizer。crystal field、band theory这些知识能帮我们做physics-informed feature engineering，也能拆解模型黑箱里的latent representation。反过来，磐石的prediction也需要实验端针对性地设计高信息密度验证，而不是盲目丢给高通量平台。

说到底，真正值得商榷的是我们的实验范式：你的lab notebook，真的ready for machine learning了吗？