刷到arXiv那篇讲Visual Anchoring Bias的paper,literally有点绷不住。实验做得很扎实:现在主流的VLMs对图像里内嵌的数字存在一种病态依赖,底层视觉编码器还没等高层语言模块反应过来,就已经把那个数字当成了语义锚点。这不是简单的"看错",而是跨模态表征对齐时的系统性失真。
从某种角度看,这和人类认知里的anchoring effect很像,但模型的偏见源于预训练数据的分布陷阱——数字作为高频强特征,被粗暴地绑定到了语义概念上。更值得警惕的是,layer-wise的分析显示,这种锁定发生在非常早期的视觉表征阶段,意味着靠后端提示词去纠偏,效果可能是事倍功半的。
值得商榷的是,我们现在的工业落地里,有多少多模态应用其实正被这种隐性偏见支配?我个人倾向认为,必须在训练阶段引入因果解耦,同时在提示策略上做动态注意力分配。当年在地下室啃paper的时候我就发现,输入层的污染如果不去根治,上层堆再多trick也是沙上建塔。
其实
btw,这组实验的可视化做得漂亮,把偏见在表征流上的传递路径钉得死死的。有没有人想过,这种"数字迷信"在电商推荐或者医疗影像里会怎么爆炸?