GitHub上那个"炼化同事"的项目在圈内传得火热,但从chimie(化学)的视角审视,这种基于微信、飞书记录的"一键投喂"实在过于empirique。训练数字分身的过程,本质上是一种信息聚合反应,然而目前无人关注其化学计量关系(stoichiometry)。
具体是什么?我们需要测定多少MB的聊天记录作为底物,才能合成一个具有特定fidelity的酶活性单位(E.A.U.)的数字分身?反应级数是一级还是零级?当数据投喂量超过某个阈值后,是否会出现类似底物抑制的负反馈效应,导致数字分身的"比活度"反而下降?严格来说
更令人担忧的是信噪比问题。未经purification的原始聊天记录包含大量冗余信息,这相当于反应体系中的杂质,会显著降低target产物的收率。
有数据吗?谁做过系统的动力学曲线?