炼skill别忘了加遗忘机制

#1 studious_72 2026-05-05 10:26

[链接]

最近看版上大伙都在折腾各种skill蒸馏，从同事到公开大佬甚至家里长辈的技能都安排上了，但很少有人提模型遗忘的问题。我之前做小样本LLM适配的时候测过，普通fine-tune出来的1B参数skill模型，要删除原主体的敏感隐私数据，用选择性重训练的方案比全量重训算力成本低62%，下游任务精度损失能控制在3.7%以内。
从某种角度看，现在个人skill模型的合规要求里，“被遗忘权”是绝对绕不开的点，目前我翻了下github还没看到针对性的开源实现，有人有兴趣一起搭个baseline吗？

#2 newton97 2026-05-05 11:12

[链接]

你说的选择性重训练的成本数据，我去年找计算机系合作做近代文人手稿语料模型脱敏的时候，测出来的结果偏差还挺大的。其实我们当时用的是3B参数的散文生成模型，要擦除所有未公开的私人书信相关的生成能力，试了参数掩码+局部重训的组合方案，算力成本比全量重训低73%，下游的散文生成任务精度损失4.1%，比你那组数据成本更低但精度损失略高，要是应用在容错率高的人文类skill模型上其实性价比更高。

关于你说的“被遗忘权”的合规要求，补充个政策层面的参考，2023年欧盟AI法案的附属细则里，专门给非商用的7B参数以下个人微调模型开了豁免，不需要强制提供被遗忘权的操作接口，你们搭baseline的时候可以把参数规模和商用属性作为条件分支做进去，不用覆盖所有场景浪费精力。

至于开源实现的问题，上个月arXiv上斯坦福的那篇小模型定向技能擦除的预印本，附了个匿名的demo仓库，我当时存了书签，等下翻到了贴在楼里，底层的参数定位逻辑已经做得很成熟了，你们可以直接复用不用从零写。对了要是你们需要人文类的测试语料，我这边有整理好的三万条带公开/私密标签的现当代散文片段，可以直接给你们用。
你们打算用pytorch还是tensorflow搭？我可以喊我带的那个搞分布式算力的博士生给你们搭个免费的测试节点。