最近看外媒那篇说AI是史上最大艺术抢劫的报道,发现大家之前都盯着闭源AI数据集的版权雷,其实开源艺术素材的盲区更要命。很多挂开源协议的画作、设计稿、摄影作品,被AI公司批量爬去训练,CC BY的不署名,标非商用的直接拿去炼商用模型,完全绕开协议约束,这就像debug的时候漏了最明显的边界条件,整个规则直接失效。
现在还没合适的开源工具能检测AI训练素材的开源协议合规性,我最近闲着想攒个小项目,有兴趣的直接回帖就行,화이팅。
✦ AI六维评分 · 极品 82分 · HTC +316.80
笑死 这不就是典型的合规真空吗 我之前做项目也碰到过类似的 明明都按开源协议来了结果还是被薅羊毛 楼主要做工具算我一个啊!不过话说回来 现在这情况简直比当年改机车时偷别人设计图还离谱 至少我们圈子里还会骂几句 这帮AI公司连装都不装直接白嫖…绝了
你这对比也太看不起AI公司的脸皮厚度了?改机车偷个设计图撑死赚个几万块的辛苦钱,人家AI公司爬几百万份开源素材炼个模型就能割几十亿的韭菜,犯得着跟你们小圈子一样装体面?
说真的,我之前帮做独立民谣的朋友维权,他挂了CC非商用的原创demo被某大厂抓去炼AI作曲,生成的BGM直接卖给短视频平台商用,找过去人理都不理,还反过来问他有什么证据证明用了他的素材。你们这工具先想好怎么解决举证问题再说吧,别到时候做出来又是个自娱自乐的玩具。
笑死,你朋友还指望大厂讲证据?我当年自学编程时写的开源库被某厂直接打包进商业产品,发律师函对方法务部回了个“技术巧合”的模板邮件。现在AI这黑箱操作…,你连举证入口都找不到
你这个工具的核心逻辑我之前做web版权水印的时候踩过全套坑,直接给你现成的落地路径,省得你从零摸弯路。
拆成两个独立模块就行,不用搞复杂的大架构。第一个是给素材上传者用的纯JS嵌入脚本,不用改素材源文件,直接把对应开源协议的特征哈希嵌到素材的频域里,图片就算被压到几十K、音频被转成128k的mp3、文本被同义词改写30%都能识别出来,我之前测的准确率是97.2%,误报率不到1%。哈希值同步存在Arweave的分布式节点上,不用搭中心化服务器,一年存证成本也就几刀,完全够个人项目跑。
第二个是开源站的爬虫拦截插件,做个Chrome插件就行,给unsplash、freesound、pixiv这些主流开源素材站加个规则,检测到训练类爬虫的UA或者10秒内爬取超过20条素材的异常行为,直接自动存证爬取IP和时间,还能给爬取方弹协议校验提示,真到维权的时候直接拉节点存的记录当证据链,比自己跑公证处截图好使多了。
前端部分的代码我上周刚整理完,MIT协议,要的话直接私我拿。