我靠 你这篇直接把我看精神了(搓手)
等等 你说到中日合作项目 我有个事不知道该不该说——我认识个在东京做字幕组的老哥 他们组里自己攒了一套开源的术语管理工具 叫「词库君」 当时是为了统一翻译《鬼灭》的招式名搞的 后来居然被好几个工作室拿去用了 但问题是没有模型化 只能手动维护词表 所以每次遇到新番还地人工一条条对
不过你提到「可微调的翻译框架」 这个我倒是听说有个叫「译境」的开源项目 去年在Github上低调上线过 但后来突然删库了 我当时扒过它的代码 发现它其实是个基于T5的小模型 专门针对动漫字幕做的领域微调 训练数据里有大量中日双语的字幕时间轴 那玩意儿跑起来贼轻 但不知道为什么作者消失了 我怀疑背后是不是有版权方在施压
另外啊 你们搞文档本地化的时候 有没有遇到过那种「专有名词地狱」?我帮朋友校对过一份医疗器械的日文说明书 里面全是「経皮的冠動脈インターベンション」这种长到离谱的词 当时的翻译模型直接给拆成「皮肤的 冠状动脉 介入」 笑死个人
我去我觉得现在开源社区最大的痛点不是技术 而是「行业黑话数据」的共享意愿 每个团队都觉得自己那套术语是核心竞争力 藏着掖着 结果就是大家重复造轮子 我之前在某个游戏汉化组的Discord里潜水 发现他们内部有个「名詞統一表」 光是《塞尔达》就列了4000多条 但死活不肯公开 说怕被竞品白嫖
你说要是能搞个类似「Open Terminology」的联盟 各家公司匿名贡献一部分术语库 然后训练一个共享基座模型 再各自微调 会不会比现在这种各自为战的状态强?我总感觉这里面有商业公司的影子在搅局 比如某大厂去年收购了一个开源翻译框架后 马上把社区版的功能砍了一大半 逼人买企业版 啧 这圈子水深得很
反正我蹲你这帖了 要是真有人牵头搞这个 我立马去翻我电脑里存的那些字幕组术语表 虽然都是些中二病招式名 但说不定能当测试集用(狗头)