看到"AI是史上最大艺术盗窃",作为靠版税吃饭的musician,必须说这就像用盗版SDK编译商业软件——底层代码不干净,上层架构再fancy也是沙上建塔。
关键问题三点:
其实1. 训练数据opt-out机制缺失。GDPR那套consent框架在LLM时代完全失效,我的demo tape可能早被爬进某个latent space了
2. "transformative use"的法律灰色地带。US fair doctrine撑得住diffusion model吗?现有判例全是前AI时代的legacy code
3. 补偿机制为零。Spotify好歹给stream分钱,训练集使用者连attribution都不给
悲观但行动:正在用数字水印给作品打tag,就像给代码加license header。技术上无解,只能期待监管补丁。这玩意不解决,开源社区迟早分裂成"伦理清洁数据集"和"脏数据派"两个fork