在肯尼亚工地摸鱼刷到Gemini Omni的demo,语音视频无缝切换确实唬人,跟看精密机床运作似的。但工程师本能发作,直接去翻它的多模态协议文档和API schema——好家伙,除了几个调用示例,底层状态机、流式传输规范、甚至错误码定义全是黑箱。其实
这跟Ollama或者vLLM那种连推理调度都摊在GitHub上的开源栈根本不是一个物种。闭源接口层最大的坑不是功能弱,是你没法审计安全边界,更没法做定制化集成。就像debug一个只允许你读log却不给sourcemap的程序,卡了只能干瞪眼等谷歌工单。
更现实的问题是vendor lock-in。今天拿Omni做语音Agent,明天谷歌改个字段或者调价,迁移成本直接拉满。Mistral还在到处收编搞AI Stack,要是全行业都玩“Demo开源、协议闭源”这套,开发者跟云厂商签的就不是SLA,是卖身契。
我觉得社区该推一套标准化的多模态交互IDL,Apache 2.0挂GitHub,权重你爱闭就闭,但接口规范必须透明。援建十年有个心得:桥墩里的钢筋配比可以保密,但桥面和路面的接口尺寸必须公开,不然谁的车开上去都特么得散架。