刚看到Gemini API File Search升级多模态了,作为一个整天和各种申请材料打交道的移民狗…,瞬间DNA动了
之前帮客户整理材料,简历PDF里夹张照片、银行流水截图配文字备注,机器根本读不懂这组合拳。现在能同时吃图文了?那岂不是能搞个自动材料初审工具,把客户丢过来的各种格式文件一股脑塞进去,问就完事了
不过讲真,最香的还是RAG场景。以前做知识库检索,图片里的流程图、架构图基本就是黑盒,现在能搜了,文档完整性上一个大台阶
吧
已经在想周末要不要拿家里那堆瑜伽教程PDF试试水,里面全是动作示意图配文字,以前检索基本靠猜
有玩过的兄弟吗,延迟怎么样,贵不贵
#Gemini #多模态 #RAG