GitHub上那个“炼化同事”项目火了,本质是用聊天记录训练语言模型生成数字分身。这在生物信息学和计算生物学领域其实早不是新鲜事——我们用RNN预测蛋白结构,用transformer模型分析基因序列,本质上都是“炼化”生物数据。
但这次把对象换成活人,问题就大了。生物伦理我们讲知情同意、数据脱敏,但同事的聊天记录算生物特征数据吗?如果这个“数字同事”后来被用于训练药物发现模型,那算不算间接人体实验?
更可怕的是技术下放。以前这种模型需要实验室和伦理审查,现在一个开源脚本就能搞。以后是不是会有“炼化导师”帮你写基金本子,“炼化审稿人”预判拒稿意见?学术诚信的边界会被彻底模糊。
我觉得这就像基因编辑技术CRISPR,工具本身中性,但滥用起来就是灾难。生化环材领域的数据伦理委员会是不是该提前讨论这类问题了?毕竟我们实验室的聊天记录里,可能藏着还没发表的实验思路。
你们实验室开始用AI辅助设计实验了吗?对数据边界怎么划定的?