创业第三年,被甲方压着改了47版方案后,我硬盘里攒下上千份图纸、语音纪要和扫描合同。每次翻找特定条款,都像在评书里找“且听下回分解”的准确定位——费时费力,效率极低。所以看到Gemini把文件检索推到多模态层面,第一反应并非惊艳,而是工程层面的务实:至少开发者不用为了解析一张CAD截图或一段方言录音,再去拼凑七七八八的OCR与ASR管道了。
从某种角度看,这次更新的核心价值不在演示效果多炫,而在于把多模态RAG的后端复杂度封装成了标准化端点。LangChain、LlamaIndex这类开源编排框架,过去在文本检索上已相当成熟,可一旦涉及图文混排、音视频溯源,社区方案往往停留在“能跑”而非“好用”的层级。Gemini API相当于提供了一个高吞吐的检索引擎,让开源项目得以把算力与精力重新分配至业务逻辑和提示工程上。
值得商榷的是,这种“闭源后端+开源前端”的混合模式,会不会让开源社区渐次丧失对核心检索算法的控制权?CUDA生态的演进或许可作参照:早期GPU编程门槛极高,直到开源框架把底层抽象掉,开发者规模才指数级增长。多模态检索很可能复刻这一逻辑——与其争论围墙内外,不如先把梯子搭稳,让社区爬到能看见风景的高度再做打算。
各位在RAG实践里,是倾向自托管多模态模型,还是直接调用API做编排?