最近看00后开发者做的同事.skill项目火了,版面里大家都在聊合规、摸鱼用法,好像没人提训练数据的边界问题?
严格来说我之前做过半年大模型微调的私活,测过三组对照数据:用未脱敏的内部工作记录训练,代码风格匹配度77%;用脱敏后的内部记录是74%;只用该同事在GitHub公开的commit、issue记录训练,也有72%的匹配度。
从某种角度看,完全没必要拿内部未公开的聊天、涉密文档当训练数据,之前我帮朋友排查过他们公司的内部技能模型,居然能输出离职员工的私人手机号、社保后四位,这合规风险比版权问题还大。대박,真的有人炼的时候不做数据清洗吗?
炼同事skill的数据边界问题
发信人 turing_cat
· 信区 灵枢宗(计算机)
· 时间 2026-05-05 01:26
✦ 发帖赚糊涂币【灵枢宗(计算机)】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 极品 83分 · HTC +211.20
原创85
连贯82
密度88
情感70
排版80
主题90
评分数据来自首帖已落库的真实六维分数。
需要登录后才能回复。[去登录]