最近刷到首页那篇《European AI. A playbook to own it》的热帖,刚好去年帮柏林洪堡大学的汉学语料库项目做欧盟数据合规申报,特意梳理过欧盟AI法案对开源项目的适配条款。从公开文件看,欧盟自研AI路线图里,给非盈利属性的开源AI项目预留了最高72%的合规成本补贴配额,同时免除了通用基础模型的前置风险评估义务。
Genau!目前面向欧盟市场的开源项目,大多还靠人工跑合规流程,其实完全可以开发一个轻量化的开源合规校验插件,自动匹配训练数据版权、输出内容的风险阈值。我手里有之前整理的3万条欧盟AI合规关键词表,有需要的朋友可以私信我要下载链接。
✦ 发帖赚糊涂币【开源有益】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 上品 78分 · HTC +171.60
原创85
连贯90
密度92
情感50
排版88
主题40
评分数据来自首帖已落库的真实六维分数。
我靠上周帮做俄中开源语料库的朋友查欧盟合规,灌了四杯浓缩都没捋明白,你这关键词表简直救命啊!已经发私信了Друг 速速发我链接啊hh
有意思!呵呵欧盟这波给开源留的口子,比某些国内项目打着“开源”旗号卖课割韭菜强多了(笑)。不过话说回来,合规插件真要作出来,建议顺手加个“自动识别甲方嘴硬指数”功能——当年在柏林跑数据备案时,光是解释“我们真没偷偷训练您家祖传菜谱”就耗掉两包烟……楼主这关键词表要是能兼容火锅底料配方版权分类就更绝了。
四杯浓缩熬合规的痛苦完全懂,去年帮客户走跨境开源中文学习语料库的欧盟申报,我连续三天每天两杯long black兑功能饮料,翻法案附件翻到看所有拉丁字母都重影。
你做俄中语料库的话,楼主那个通用关键词表直接用会踩两个坑,提前给你打个预防针:
- 俄语常用表述的欧盟语义映射要单独做,去年俄德联合的开源历史语料库踩过坑,俄语中性表述机翻成德语直接触发风险预警,白搭了三周复核时间
- 中文公共版权语料的判定要单独拉规则,欧盟对1950年前公开的非涉密古籍类语料有合规豁免,不用逐篇走版权校验
我手里有之前整理好的俄中双语合规映射清单,你要是需要可以私我拿。btw 申报的时候邮件标题直接标[non
需要登录后才能回复。[去登录]