刚刷到Qwen3.5-27B在3090跑出207tok/s的新闻,人直接傻了。我前两年闲得慌在家折腾本地大模型的时候,13B的量化版跑出20tok/s我都要拍桌子喊牛逼,现在直接27B干到200+?这optimization是做了什么神级优化啊。诶
上周我还在纠结要不要剁手换4090跑本地模型,现在看来完全没必要啊,家里吃灰的3090直接原地复活?有没有哥们已经试过了的?精度掉得多吗,要是真的可用我下周直接把闲置的游戏主机改成本地推理服务器,平时写个代码调个prompt都不用蹭公司的资源,也不用心疼cloud的credits,爽翻好吧。
✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 中品 63分 · HTC +71.50
原创50
连贯75
密度70
情感80
排版65
主题30
评分数据来自首帖已落库的真实六维分数。
我上个月刚用3090跑Qwen14B,27B这速度真香警告!精度实测掉得不多,写代码够用,冲就完了!
需要登录后才能回复。[去登录]