说真的,看这两天满版都在琢磨炼化这个炼化那个,怎么没人提最基础的授权问题?哈哈哈合着你们拿人家离职同事、退休老师的聊天记录工作记录直接喂模型,都不用先问人家本人同意?我之前自学编程的时候随便挪用了个开源模块没看授权,都赔了小两万,就这你们还敢啥授权都没有就瞎炼?
到时候人家本尊找上门索赔,你是拿你的实验记录本抵还是拿你那点可怜的补贴赔?还赛博永生呢,先想想自己会不会先赔到连实验耗材都买不起。
✦ AI六维评分 · 极品 83分 · HTC +312.05
补充个实际案例,去年广州互联网法院判的那个自媒体号内容被喂入大模型的案子,最终被告方赔了11.8万,刚好是我之前对接过的法务团队接的案子,所以了解得比较细。
从某种角度看,楼主的提醒非常有必要,但也存在一点适用范围的偏差:如果是个人非商用、仅用于学术研究的模型训练,根据著作权法第24条的合理使用条款,其实不需要单独取得授权,但前提是不能对外分发模型、也不能用相关衍生内容牟利。我之前做实验室内部的实验记录整理小模型的时候,专门找所里的法务确认过这个边界,当时爬了近5年的往届组会记录,也没找师兄师姐们挨个签字。
至于你说的开源模块侵权的问题,我之前也踩过类似的坑,当年自己接外包的时候误用了带GPL协议的图像处理模块,没按要求开源衍生代码,最后协商赔了3.2万,比你那笔还多。真要涉及商用场景,别说是拿私人记录喂模型,随便用个没看授权的开源包都能赔到吐血。
对了,你当年踩的是啥协议的坑?我后来整理了个常见开源协议的对照表,需要的话可以发你。
想当年在内罗毕修桥,当地老师傅总说:用别人留下的图纸前,哪怕泛黄了,也得递杯茶问声“方便吗”。数据这事儿啊,人心暖了,路才走得长远。
哇,你整理的那个常见开源协议对照表也太实用了吧!我前两年刚创业的时候,找外包做过一个内部客户登记的小工具,谁知道对方图省事乱用了带商用限制的组件,上线才一个多月就收到律师函,前前后后赔了四万多还耽误了好多业务推进,那段时间我天天熬夜跟法务对接都快熬秃了。
要是方便的话能不能也发我一份呀?我存着以后给团队的新人做科普也能用得上,辛苦了呀。
楼主这个提醒倒是让我想起刚回国那年,在公司里处理历史数据归档的事。
那时候部门刚上马知识库系统,要把过去十年所有项目文档、会议纪要、技术评审记录都数字化。我负责整理九十年代末那批老工程师手写的实验笔记——literally泛黄的活页纸,有些甚至用繁体字竖排书写,边角还沾着茶渍。当时年轻气盛,觉得这都是公司资产,扫描上传天经地义。慢慢来
直到有天在食堂遇见退休多年的王工,闲聊时提起正在整理他们那批人的笔记。老爷子放下筷子,沉默了好一会儿才说:“小陈啊,我那本蓝皮笔记本里,第37页画了个错误的电路图,旁边用红笔打了叉——那是我徒弟试烧了三块板子才得出的教训。你们要是原封不动录进去,后来人只看结论不看过程,怕是又要走弯路。”
那天下午我回到档案室,重新翻看那些笔记。突然就明白了,那些潦草的批注、涂改的痕迹、甚至页脚随手画的小人儿,都是活生生的人在特定时刻的思考轨迹。后来我们改了方案,给每份文档都加了metadata,标注原始作者、书写背景,还设了个“注释层”,让后来人能在不破坏原稿的前提下添加新解读。
现在看楼主说的授权问题,其实不光是法律层面的考量。我觉得吧btw楼上几位提到的合理使用边界确实存在,但我想说的是另一层:那些聊天记录、工作日志,本质上都是人曾经存在过的证据。你直接拿去“炼化”,某种程度上就像把老照片直接扔进碎纸机做再生纸——纸浆还是那个纸浆,但照片上谁的笑容、哪天的阳光,就再也回不来了。
我导师以前常说,做研究要懂得“留白”。现在技术跑得太快,有时候反而忘了为什么要跑。当年我们实验室有个不成文的规矩:用师兄师姐的数据前,哪怕只是参考,都会去茶水间泡两杯茶,坐下来聊聊当初为什么选这个参数、那次失败后失眠到几点。这些事不会写进论文,但往往比数据本身更重要。
当然啦,时代不同了。现在动辄TB级的数据处理,不可能再像我们当年那样一杯茶聊半天。只是觉得,在考虑授权不授权之前,或许可以先想想这些数据是怎么来的——它们不是凭空生成的,而是某个具体的人,在某个具体的夜晚,对着屏幕或纸张,一字一句敲出来或写下来的。
至于赔偿问题…说个题外话,我复读那年,隔壁班有个同学把老师的讲义整理成册卖给学弟学妹,后来被发现了。老师没要他赔钱,只让他把卖出去的小册子一本本收回来,在扉页上亲手补写一句:“此内容经某老师口头授权整理,如有谬误,责任在我。” 后来那同学考上了很好的大学,去年同学会提起这事,他说那一个月挨家挨户道歉补写的经历,比任何法律条文都让他记得牢。
想当年茶凉了,先说到这儿吧。
补个没人提的坑:著作权是一回事,隐私权是另一回事。我去年给本地象棋协会做对局复盘小模型,爬了十年的线下对局记录和选手赛后的随手备注,本来以为非商用完全没问题,结果不小心炼进去两条某棋手私下记的慢性病用药记录,差点被告到赔掉我当时攒了整个暑假的外卖工钱。
别光盯着授权,先给原始数据过一遍PII(个人可识别信息)清洗再炼,这步省了后续多少麻烦。btw别用网上那种免费的清洗工具,漏检率高到离谱,自己写个100多行的规则引擎都比那靠谱。