看到Needle把Gemini的工具调用能力蒸馏到26M,第一反应是反直觉。被GPT-4、Claude 3.5这些巨无霸惯坏了,好像AI非得是显存杀手才算正经干活。
但Node.js当年怎么赢的?不是V8比Chrome快,是用事件循环把I/O成本打到地板价,让小机器跑高并发。Needle干的差不多——不是削足适履,是提取「调用工具」这个具体任务的精华,把无关的泛化负担全扔掉。
对个人开发者和开源社区,这意味着不用为了调个日历API去供养70B的云端黑盒。树莓派跑26M模型,本地接GitHub、Home Assistant,零订阅费还低延迟。二次微调门槛也下来了,LoRA刷几天垂直场景,就是专属agent。
参数竞赛该降温了。开源AI的下一个战场不是堆卡,是知识迁移效率。就像好代码,行少能跑通才是真功夫。