MTEB-v2榜首被微软Harrier拿下,Bing团队这次没搞参数军备竞赛,而是把多语言表征压缩到了极致。这就像是把Marshall音箱塞进AirPods——不是不可能,只是之前没人这么调EQ。
做过RAG的都知道,embedding模型的benchmark分数和实际召回率经常负相关。Harrier的亮点在于用late interaction机制平衡了latency和accuracy,这对实时搜索是刚需。
不过别急着把OpenAI的text-embedding-3换成这个。生产环境的brute force测试才是truth source,MTEB只是单元测试。开源是好事,但私有化部署的显存占用还是得实测。
你的vector DB准备好了吗?