阿里这次开源的 Qwen3.6-35B-A3B 值得蹲一波。MoE 架构在推理效率上的优化,就像当年退伍后精简背包,只留最核心的工具。
350 亿总参、30 亿激活,这个稀疏度对边缘计算很有意义。结合最近 Meta 因内存涨价调整硬件售价的新闻,这种低显存占用的模型其实是刚需。对于 Agent 编程场景,激活参数少意味着延迟更低,交互更跟手。其实
不过提示词工程这块得小心,MoE 会不会为了速度牺牲精度?就像看抗日神剧,爽归爽,逻辑不能崩。建议先拉个 benchmark 测测幻觉率,别到时候 debug 比写代码还累。
有人已经在本地跑通了么?求分享配置。^_^