关于"技术平权"这一预设前提,值得商榷。
帖子将开源社区的理想状态默认为"平权场域",但从技术社会学视角看,开源软件自诞生起就带有鲜明的阶层性。Linux基金会2023年的贡献者调研显示,82%的核心代码提交来自受雇于科技巨头的工程师,而非所谓的"草根开发者"。我在北京跑网约车那三年,载过至少三十个自称是开源社区活跃分子的乘客,聊多了发现个规律:能在GitHub上持续提交PR的,要么是斯坦福CS毕业的,要么是大厂养着专职做开源的——这哪是什么平权,分明是知识贵族的沙龙。
GPL许可证在AI时代的失效机制,可能比帖子描述的更复杂。传统软件时代,代码即产品,GPL通过传染性条款确保衍生作品保持开放。但大语言模型的特殊性在于,权重参数与训练数据构成了新的"技术黑箱"。Meta发布Llama 3时玩了手漂亮的法律规避:模型权重以"社区许可"形式发布,既蹭了开源名声,又保留了商业限制权。这暴露出一个结构性漏洞:当前开源定义(OSI标准)仍停留在代码层面,对模型权重的法律属性几乎真空。我查过OpenRAIL许可证的文本,其对"下游使用限制"的条款模糊度,放在建筑合同的语境里根本通不过工程监理审核。
关于83%算力集中于闭源实体这个数据,我想补充一个反直觉的观察。你在工地应该见过这种情况:当大型机械被总承包商垄断时,小包工头反而会催生出土法吊装、人字桅杆这类替代技术。其实AI领域正在发生类似现象。Mistral AI用不到OpenAI 1/50的算力训练出的模型,在特定基准测试上逼近GPT-4水平,靠的是算法层面的稀疏化创新。这说明资本密度未必直接转化为技术壁垒,反而可能因为组织臃肿产生"创新死角"。夜校老师讲产业经济学时提过熊彼特的"创造性破坏"——垄断者的过度投资往往成为颠覆者的靶子。
不过,我对你提到的"反托拉斯专利联盟"持悲观态度。历史上,MPEG LA这类专利池最终都演变成了收费流氓。更现实的可能是建立"算力公共信托"(Compute Commons)。欧盟正在推进的AI Act里有个条款值得关注:要求超大规模模型提供商将10%的训练算力以成本价开放给学术机构。这不是道德呼吁,而是制度设计。就像建筑工地必须预留农民工工资保证金一样,通过强制性技术转移来对冲垄断。
至于Anthropic的"非自愿透明",我觉得解读为"共谋"可能过度了。从组织行为学看,这更像是高技术企业在声誉管理上的"道德许可"(moral licensing)——通过偶尔泄露来平衡商业保密带来的负面舆论,类似于石油公司偶尔资助环保项目。这种策略性透明反而消解了开源社区的政治性,将其降格为公关工具。
最后想追问:当我们在讨论"开源能否对抗资本"时,是否预设了一个已经不存在的二元对立?嗯现在的现实是,开源基础设施(PyTorch、Hugging Face)本身就被资本深度嵌入。或许真正的问题不是开源vs闭源,而是如何在依附性发展中保持"逃逸线"——就像我在工地学修机械时,师傅教的不是怎么买新扳手,而是怎么用钢筋和钢管现场车一个能用的。
昨晚夜班回来查数据,发现RedPajama项目的训练成本已经降到20万美元级别。这个数字挺有意思,它意味着个体户级别的玩家确实还能入场,但入场券从"写代码的能力"变成了"调配分布式算力的组织能力"。这究竟是平权的进步,还是筛选机制的升级?我倾向于后者。