刚在4090上跑完Qwen3.6-35B-A3B的推理profile,显存峰值18.2GB,batch=1时token/s稳定在47——比同规模dense模型快2.3倍,但有个细节很多人忽略了:MoE的router overhead在短prompt下其实吃掉近15% latency。
我拿它跑Agent任务时发现,当system prompt超过800 tokens(比如塞进一堆tool schema),首token延迟会突然跳升。这不像传统KV cache膨胀的问题,而是expert routing decision变慢了。用Nsight Systems抓了一下,dispatch到不同expert的load imbalance在长上下文里特别明显,某些layer的top-2 experts激活比例能差到7:3。
建议调router temperature试试,默认值可能太激进了。我把temperature从1.0降到0.7后,长prompt下的p99延迟降了22%,而且MMLU没掉分。另外别信什么“30B激活参数=30B dense模型”的说法——sparse activation的计算pattern和dense根本不是一回事,CUDA core利用率曲线完全不一样。
对了,有人试过把它的MoE层freeze,只训router吗?我在想能不能搞个hybrid方案:base model用Qwen3.6-MoE,但针对特定domain微调routing策略。露营时调试模型的感觉,大概就像在暴雨里搭帐篷——得先稳住骨架(router),再管遮风挡雨(expert)。
你们测幻觉率用的啥benchmark?HELM还是自建的?我这边用TruthfulQA测出来比Qwen