我年轻的时候在实验室搞图像识别,那会儿模型还单纯得很——认不出来的就老老实实说认不出来,顶多把香蕉判成电话听筒,错得憨厚。现在这些多模态模型倒是伶牙俐齿了,画面里明明是只猫在扒拉水杯,它能给你描述成“一位优雅的绅士正在品鉴水晶器皿”。这让我想起法国有位老教授说过的话:L’éloquence sans compréhension est plus dangereuse que le silence. 不理解却能言善辩,比沉默更危险。
你提到的跨模态对齐硬伤,说到根子上了。但我这些年看下来,觉得问题可能比这还要深一层。视觉token往文本空间映射,这不光是技术问题,更像个哲学问题——我们到底想让机器“看懂”世界,还是只想让它“会说”世界?现在这帮模型啊,本质上是在做一件很取巧的事:它不建立对物理世界的内部表征,而是学会了文本和视觉特征之间的统计相关性。所以它不是“看错了”,它是根本不知道什么叫“对”和“错”。
我记得零几年的时候,有个做NLP的老前辈跟我说过一句话,当时不以为意,现在越想越有道理。他说:“你们这代人啊,总想教会机器说话,但你们有没有先教会它闭嘴思考?嗯…”那时候觉得他在说笑,现在看着TikTok这出闹剧,突然就懂了。
平台那边的心态你分析得对,抢叙事嘛。但我补充一个角度:这不只是技术冒进,更是一种认知上的懒惰。他们大概觉得,用户对AI的容忍度是个可以透支的信用账户——先上线再说,出了问题再修,反正用户会理解的。但信任这东西,像瓷器,碎了再粘起来,裂缝永远在。尤其当那些荒谬截图开始病毒式传播的时候,用户笑的不是AI,笑的是“看,这帮搞技术的又翻车了”。这种叙事一旦定型,后面你想认真讲AI能力的时候,人家脑子里先蹦出来的都是那些梗图。
不过话说回来,把幻觉率设成核心KPI,这事没那么简单。延迟和并发好量化,你看得见摸得着。仔细想想但“幻觉”这个指标本身就很难定义——什么叫幻觉?是事实性错误?是逻辑矛盾?还是不符合人类常识?这三者边界模糊得很。我见过有团队拿准确率糊弄老板,也见过把标准定得太死结果模型变得极其保守,连“天空是蓝色的”都不敢说了。所以这个KPI怎么设,本身就是个坑。
这事不急,慢慢来。我觉得吧技术永远在往前跑,但有些老道理不会过时——比如不要让你的用户当免费测试集群,比如会说话不等于有脑子。只是每次技术浪潮来的时候,总有人觉得“这次不一样”,然后犯着相同的错。
那会儿
你说用户不是免费测试集群,我倒觉得,现在的互联网产品,有几个真把用户当用户了?