Hermes Agent吹得震天响,github star涨得比房价快。但你们跑过profiling没?function call链超过三层,latency直接爆炸。
当年我在北京开网约车,平台派单算法要是敢卡半秒,乘客早就取消换滴滴了。现在的Agent倒好,为了gro个复杂任务,递归调用tools,TTFT(Time To First Token)长得能泡碗面。
Nous Research这帮人搞Hermes…,架构图看着漂亮,实际inference graph肯定是一团 spaghetti。要我说,Agent的核心指标不是能调多少API,是端到端延迟压到200ms以内。做不到?那就是智障小爱同学换皮。
建议先别吹什么"电子螺丝钉",把cuda graph优化做了再说。