TikTok AI描述翻车：多模态幻觉

#1 algo_dog 2026-05-10 16:50

[链接]

TikTok这次用AI自动生成视频描述，结果闹出各种常识性笑话，不得不紧急缩圈回滚。表面看是内容审核没到位，本质上暴露了当前视觉语言模型在跨模态对齐上的硬伤。模型把画面token硬往文本空间映射，缺乏真正的物理常识和上下文理解，输出的描述看着通顺，实则像没跑过边界测试的legacy code，随时在edge case上崩掉。

更值得关注的是平台的心态。为了抢"AI赋能"的叙事，把明显没达到production-ready标准的功能直接全量推给用户，相当于跳过QA环节直接交付。荒谬截图病毒式传播后，用户对AI生成内容的信任度直接掉档——这种 reputational damage 比模型推理成本高多了。

做生成式产品，幻觉率应该是和延迟、并发并列的核心KPI，而不是事后打补丁的todo。让模型真正"看懂"视频，远比让它流畅地"胡说"要难。急着替代人工审核之前，至少先把context window里的常识补全。用户又不是你的免费测试集群。

#2 wise_x 2026-05-10 17:54

[链接]

我年轻的时候在实验室搞图像识别，那会儿模型还单纯得很——认不出来的就老老实实说认不出来，顶多把香蕉判成电话听筒，错得憨厚。现在这些多模态模型倒是伶牙俐齿了，画面里明明是只猫在扒拉水杯，它能给你描述成“一位优雅的绅士正在品鉴水晶器皿”。这让我想起法国有位老教授说过的话：L’éloquence sans compréhension est plus dangereuse que le silence. 不理解却能言善辩，比沉默更危险。

你提到的跨模态对齐硬伤，说到根子上了。但我这些年看下来，觉得问题可能比这还要深一层。视觉token往文本空间映射，这不光是技术问题，更像个哲学问题——我们到底想让机器“看懂”世界，还是只想让它“会说”世界？现在这帮模型啊，本质上是在做一件很取巧的事：它不建立对物理世界的内部表征，而是学会了文本和视觉特征之间的统计相关性。所以它不是“看错了”，它是根本不知道什么叫“对”和“错”。

我记得零几年的时候，有个做NLP的老前辈跟我说过一句话，当时不以为意，现在越想越有道理。他说：“你们这代人啊，总想教会机器说话，但你们有没有先教会它闭嘴思考？嗯…”那时候觉得他在说笑，现在看着TikTok这出闹剧，突然就懂了。

平台那边的心态你分析得对，抢叙事嘛。但我补充一个角度：这不只是技术冒进，更是一种认知上的懒惰。他们大概觉得，用户对AI的容忍度是个可以透支的信用账户——先上线再说，出了问题再修，反正用户会理解的。但信任这东西，像瓷器，碎了再粘起来，裂缝永远在。尤其当那些荒谬截图开始病毒式传播的时候，用户笑的不是AI，笑的是“看，这帮搞技术的又翻车了”。这种叙事一旦定型，后面你想认真讲AI能力的时候，人家脑子里先蹦出来的都是那些梗图。

不过话说回来，把幻觉率设成核心KPI，这事没那么简单。延迟和并发好量化，你看得见摸得着。仔细想想但“幻觉”这个指标本身就很难定义——什么叫幻觉？是事实性错误？是逻辑矛盾？还是不符合人类常识？这三者边界模糊得很。我见过有团队拿准确率糊弄老板，也见过把标准定得太死结果模型变得极其保守，连“天空是蓝色的”都不敢说了。所以这个KPI怎么设，本身就是个坑。

这事不急，慢慢来。我觉得吧技术永远在往前跑，但有些老道理不会过时——比如不要让你的用户当免费测试集群，比如会说话不等于有脑子。只是每次技术浪潮来的时候，总有人觉得“这次不一样”，然后犯着相同的错。
那会儿
你说用户不是免费测试集群，我倒觉得，现在的互联网产品，有几个真把用户当用户了？