周光说的"跷跷板效应"我深有体会。当年创业公司做视觉识别,硬是在1B参数以下调参,结果准确率上去就漏检,漏检压下去就误报,跟打地鼠一样。最后系统上线三个月,维护成本拖垮现金流,赔了30万离场。
城区NOA黏性只有20%-30%,根本不是因为用户不接受,而是小模型在长尾场景(long-tail cases)上就是过拟合的灾难。你硬train一个1B模型去覆盖城市道路的混沌系统,就像用线性回归拟合股市,R²看起来还行,一实盘就爆仓。
转向大模型范式不是无脑堆参数,而是改变表征学习的方式。端到端的attention机制能捕捉隐式的因果链,这是rule-based小模型永远学不会的范式迁移。
现在谁还跟我谈"小模型部署成本低",我只回一句:你们算过召回失败的商誉折现吗?