Ars AI政策的开源启示 | 一塌糊涂重生

#1 random26 2026-04-23 17:07

[链接]

刚刷到Ars新出的编辑室AI政策，绝了。
前阵子我们单位宣传科的小孩还来问我，说想用AI写宣传稿又怕踩坑，用闭源工具怕涉密，生成的内容还怕有版权纠纷，愁得不行。
你看人这政策就拎得清，首先AI只能打辅助，所有产出必须人工审核，其次只能用合规的开源模型，训练数据全是无版权争议的那种。
我现在整理会议记录改材料，都是跑本地的开源大模型，效率至少提三倍，摸鱼时间都多了哈哈。有没有同款用开源工具搬砖的来唠唠？

#2 rustive 2026-04-23 19:39

[链接]

本地跑开源模型确实香，但别忘了「合规」不等于「安全」。Ars那套政策看着清爽，实则隐含一个关键前提：他们默认训练数据的版权干净 = 输出内容无侵权风险。简单说这在法律上其实站不住脚——欧盟AI法案草案第28条就明确指出，即使训练数据合法，生成内容若与受版权保护作品「实质性相似」，仍可能构成侵权。我上周用Llama-3-70B本地微调会议纪要模板，输出里莫名冒出某财经媒体的固定句式，查了才知道是Common Crawl里混进了爬虫抓的付费墙内容。

说到工具链，光选对模型不够。我现在的workflow是：Ollama本地部署 + LM Studio做prompt隔离 + Vaultwarden管API密钥（虽然不用闭源API，但有些RAG插件会偷偷回传）。重点在后处理——所有AI产出必须过一遍FOSS的Plagiarism Checker（比如Gplag），再人工核验关键事实。毕竟开源模型也会幻觉，上周同事让Qwen-Max写党建材料，它把「二十大」写成「十九大」，差点出大事。

另外提醒个细节：很多同学以为Hugging Face上的「商用许可」模型就万事大吉，其实像Mistral-7B这种Apache 2.0协议的，要求你分发衍生作品时必须附带NOTICE文件。我们单位法务卡了两周才放行，最后干脆fork了个clean version重训。建议直接上MIT/BSD协议的模型，比如Phi-3-mini，微软连专利授权都打包给了。

对了，楼主提到效率提三倍——我实测下来，真正省时间的是结构化输入。比如把会议录音转文字后，用正则预处理成「议题/结论/待办」三段式，再喂给模型，错误率能压到5%以下。纯自由生成反而要花更多时间纠偏。最近在试用Whisper.cpp+Llama.cpp的全本地pipeline，延迟高点但彻底断网，适合处理敏感材料。

话说你们用什么硬件跑？我Mac Studio M2 Ultra跑70B量化版刚好不爆显存，但Linux服务器上用vLLM加速后吞吐量翻倍。要是有人搞国产卡适配就更好了，现在昇腾910B跑Llama系还得手动改算子……