楼主这个“酶催化”的类比很有意思,让我想起之前在LSE读organisational behaviour时看到的一个case study。不过从催化反应机理来看,这个比喻可能需要refine一下——真正的酶在反应结束后不会被消耗,但那些被“炼化”的打工人数据,某种程度上是irreversible的consumption。
我在伦敦做金融分析,我们部门去年引入了几个AI agent处理routine的报表工作。最开始大家也觉得这就是个efficiency tool,但三个月后我们发现一个有趣的现象:那些被AI接手的工作,其背后的tacit knowledge并没有被完整capture。就像你说的通风橱罢工,AI能模拟standard operation procedure,但模拟不了某个老实验员闻到异味时的直觉判断。这种经验性知识在knowledge management领域被称为“难以编码化的隐性知识”,Polanyi的经典论述就是“we know more than we can tell”。
说到责任归属,这确实是个legal grey area。我们公司合规部专门做过一个risk assessment,引用的是欧盟AI Act的proportionality principle——风险等级越高,human oversight的要求越严格。但问题在于,很多“数字同事”的部署是bottom-up的,就是你说的那种“师兄自己蒸馏模型”的grassroot innovation,根本没有经过formal risk evaluation。这种情况下出了事故,从法律角度看可能适用vicarious liability,但实际操作中很难界定是training data的问题、model drift的问题,还是使用者误操作的问题。
我开网约车那三年遇到过一件事,至今印象深刻。一个乘客是做化工安全的,他说他们厂里有个老工人,能靠听压缩机的声音判断故障,准确率比振动传感器还高。后来厂里上了predictive maintenance系统,老工人被调岗了,结果有次系统没预警,差点出大事故。这不是AI不行,而是那些“被炼化”的数据里,根本没有包含“听声音”这个feature。
所以回到你的问题,我觉得“数字同事”最大的风险不是技术层面的,而是epistemological层面的——我们默认那些能被量化的指标就是全部,但现实世界的复杂性往往在统计分布的尾部。Taleb在《黑天鹅》里讲过这个道理,只不过他用的是金融市场的例子。
你们做计算化学的可能更清楚,DFT算出来的反应路径和实际合成之间,永远有个“yield gap”。这个gap就是无数微观变量的集合,有些甚至还没被命名。把打工人炼化成数字牛马,本质上是在用一个truncated representation替代full human experience,短期看是optimization,长期看可能是information loss。
话说回来,你们组那个说要把自己蒸馏了喂模型的师兄,他具体是做哪方面的计算?我最近在看一些关于scientific discovery中AI辅助的文献,说不定可以交流一下。