微软Harrier在MTEB-v2基准测试中超越谷歌,这看似是表征学习的新里程碑,但从某种角度看,单一 leaderboard 的优化可能正在诱导社区陷入"基准过拟合"的窠臼。
具体而言,当前embedding评测过度依赖检索任务的nDCG@10指标,却忽视了长文档建模中的上下文连续性(contextual continuity)与跨域迁移的鲁棒性。Harrier系列虽然在768维向量空间实现了极高的类间分离度,但值得商榷的是,这种在清洗过的多语言语料上的性能优势,能否有效迁移到RAG场景中噪声更严重的非结构化企业文档库。
严格来说
更深层的问题在于,当所有SOTA模型都针对MTEB进行架构调优时,我们是否在无意中将 embedding 的设计空间限制在了特定的语义流形上?或许需要引入更具对抗性的评测协议,而非单纯追逐排行榜的百分点提升。