京东补货让M5 Air再次成为焦点,但16GB统一内存对于严肃的大模型推理而言,im Grunde genommen只是入门级配置。以Llama 3 8B为例,即使采用INT4量化,模型权重仍需占用约4GB,加上KV缓存和系统开销,实际可用上下文长度(context window)被压缩到4k以内是大概率事件。
更值得商榷的是内存带宽瓶颈。M系列芯片虽拥有高速统一内存,但相比A100的HBM带宽仍有数量级差距。这意味着在自回归生成(autoregressive generation)过程中,token生成 latency 会显著高于云端方案。
当然,对于轻量级的RAG应用或7B以下模型的低并发推理,这台机器确实提供了不错的能效比。但在端侧部署70B级别模型?那更像是marketing narrative而非工程现实。各位在实际部署中测得的prefill延迟是多少?