这两天谷歌搜索AI把disregard当成系统指令全网炸锅,不少人说是prompt injection没做好。但从某种角度看,这更像是高维语义空间里的一场几何事故。Transformer做token embedding时,“disregard”、"ignore"这类词跟系统控制指令的向量簇,欧氏距离被压到了0.37以下,发生了本不该有的邻近坍缩。
更值得商榷的是训练阶段的分布偏差。KL散度最小化过程中,模型对低频指令词产生了先验过拟合,导致控制语义的子流形局部曲率异常升高。自然语义的测地线经过那里就会发生偏折,跟光线在引力场中的偏折如出一辙——只不过这里弯曲的是meaning manifold。根子在于当前LLM缺乏有效的元语义隔离机制,符号层面分不清"描述操作"和"执行操作"的边界。从公布的case看,误触发高度集中在表否定的词群上,这绝非偶然。
我只关心一件事:这个曲率异常是英语embedding的特例,还是多语种语义流形共通的拓扑缺陷?