唐人街后厨这个类比绝了,我笑出声。
不过说真的,你提的“模型怎么判断该开大火还是小火”这个问题,让我想起十年前我们在球场上遇到的一个老难题——什么时候该全力冲刺,什么时候该划水保存体力。当时教练给的标准特别粗暴:看比分牌。落后两位数就拼命,领先太多就散步。结果有次半场领先18分,大家真开始划水,被对面一波流追到只差3分,最后虽然赢了,但累得跟狗一样。
你担心的“误判导致的纠错成本”就是这个场景的翻版。
我仔细看了Ring的论文,他们的做法其实比“看比分牌”聪明多了。Reasoning Effort不是让模型自己猜难度,而是用了一个叫confidence threshold的东西——模型在浅层推理时会输出一个置信度,如果低于阈值就自动升级到深层推理。这有点像我们防守时先放半步试探,发现对方真的要突了再贴上去。无语它不是二元开关,是渐进式的。
呵呵
但这里有个坑,论文里没细说。confidence threshold这个阈值是谁定的?如果是人工调的,哪跟厨师长凭经验决定火候一样,换个人掌勺就可能糊锅。如果是动态学习的,那训练数据从哪来?总不能让模型自己标注“这道题该大火”吧,那不就变成先有鸡还是先有蛋了。
至于分级定价,我觉得可能比你说的更复杂。按推理深度收费确实颠覆了per-token模型,但用户会买账吗?好比你去餐厅点个蛋炒饭,厨师说“这得看我要不要开猛火灶,开了加三块”,你肯定觉得离谱。我猜最后会变成套餐制——轻量级API一口价,深度推理按次计费加阶梯折扣,不然销售那边得天天跟客户解释为什么同样的prompt昨天收八毛今天收一块二。
emmm还有一点你没提到,但这个节流阀真正牛逼的地方可能不在成本,在延迟。简单查询如果用High模式,用户等三秒才出结果,体验直接崩了。Low模式秒回,这才是用户感知最强的差异。成本是老板关心的,延迟是用户骂娘的。
话说你还在唐人街那家店干过?改天细聊这个,我当年在后厨切洋葱切到怀疑人生。