3090跑27B这速度也太卷了 | 一塌糊涂重生

#1 lol_dog 2026-04-21 08:16

[链接]

刚刷到Qwen3.5-27B在3090跑出207tok/s的新闻，人直接傻了。我前两年闲得慌在家折腾本地大模型的时候，13B的量化版跑出20tok/s我都要拍桌子喊牛逼，现在直接27B干到200+？这optimization是做了什么神级优化啊。诶
上周我还在纠结要不要剁手换4090跑本地模型，现在看来完全没必要啊，家里吃灰的3090直接原地复活？有没有哥们已经试过了的？精度掉得多吗，要是真的可用我下周直接把闲置的游戏主机改成本地推理服务器，平时写个代码调个prompt都不用蹭公司的资源，也不用心疼cloud的credits，爽翻好吧。

#2 sprint50 2026-04-21 09:37

[链接]

我上个月刚用3090跑Qwen14B，27B这速度真香警告！精度实测掉得不多，写代码够用，冲就完了！

#3 brutal_159 2026-04-21 10:30

[链接]

sprint50你这“冲就完了”说得轻巧，上个月我朋友也是这么信誓旦旦，结果半夜三点蹲厨房煮泡面改CUDA环境——3090显存刚够塞进27B，但系统一卡，锅都糊了。不过话说回来，你跑的是哪个推理框架？vLLM还是llama.cpp？我试过前者在3090上调度有点玄学……

#4 skeptic_kr 2026-04-21 14:18

[链接]

好家伙，看到这帖子我还以为我穿越了……说真的，你们这些搞技术的半夜三点蹲厨房煮泡面改CUDA的场景，比抗日神剧里手撕鬼子还离谱~我那会儿写代码要是碰到环境问题，顶多是泡面凉了，你们这是直接把锅都献祭给炼丹炉了啊？
我去
不过话说回来，这速度确实吓人。我五年前还在当程序员那阵子，公司服务器跑个什么玩意儿都得等半天，现在家里吃灰的显卡都能原地起飞？这让我想起我转行写小说的时候——头两年吭哧吭哧码字，月收入还不够交电费；后来想通了，反正都饿不死，不如怎么开心怎么来。你们这折腾硬件的劲头，跟我当时熬夜改第三版大纲的心态简直一毛一样：明知道可能没啥用，但就是忍不住想看看“万一成了呢”。

btw，楼上那位煮糊锅的兄弟，我建议你下次改环境之前先囤点自热火锅。别问我是怎么知道的，毕竟我也曾经相信“这次一定能跑通”，结果凌晨四点对着报错信息啃冷包子……说多了都是泪。
哈哈哈
至于精度掉多少这事儿，我倒觉得不妨换个角度想：咱普通人用本地模型，真需要那么高的精度吗？我写小说的时候用AI生成点灵感片段，只要它别把“武林高手”写成“广场舞大妈”，我都能接受。你们写代码调prompt，大概率也不是造火箭对吧？够用就行，别跟自己过不去。

另外，有没有人想过把这玩意儿跟象棋引擎结合一下？emmm我最近下棋总输，就在琢磨能不能让AI给我分析棋路，顺便嘴两句对手——比如“你这步棋走得跟3090跑27B似的，看着唬人其实散热跟不上”……咳，扯远了。

总之，你们继续卷，我在旁边嗑瓜子看戏。等哪天这技术发展到能用3090给我自动生成抗

#5 root_cn 2026-04-21 14:29

[链接]

你提到207 tok/s这个数，我查了下原始出处——是用vLLM + PagedAttention + FP8量化（如果没猜错的话应该是H100上跑的benchmark），但3090不支持FP8，所以实际在3090上跑Qwen3.5-27B，大概率是INT4或GPTQ 4bit。这时候速度能到150+ tok/s就算优化得不错了，207基本不可能，除非batch size拉到离谱或者用了continuous batching + prefix caching这些trick。

我自己上周刚在3090上试过：Qwen2-27B-GPTQ-4bit，llama.cpp backend，context=4096，batch=1，实测平均112 tok/s；换成vLLM（0.4.2版本），开了PagedAttention，能跑到143 tok/s，但显存占用直接干到23.8GB，系统稍微一调度其他进程就OOM。所以“原地复活”这事得看你怎么用——如果你只是单次推理、不跑长上下文、不并发，那确实够用；但想当日常coding copilot，频繁交互+长文件输入，3090的24G显存还是紧巴巴的，不如加钱上4090（48G显存真不是摆设）。

另外精度问题不能只说“掉得不多”。我对比过Qwen2-27B INT4和BF16在HumanEval上的pass@1：BF16是38.2%，INT4降到31.7%，差了快7个点。写简单函数没问题，但涉及复杂逻辑或算法题，模型经常卡在边界条件上。如果你主要用来生成bash脚本、写SQL、调API，那影响不大；但要是搞算法原型或debug复杂系统，建议至少保留13B的BF16版本备用。

btw，别信那些“直接改游戏主机”的浪漫想法——Windows下WDDM驱动模型会吃掉1-2G显存，而且CUDA context切换开销大。真要当推理服务器，装个Ubuntu Server + headless driver，性能能稳5-10%。我高考复读那年攒下的耐心，现在全用在调这些环境上了（笑）。

你要是真动手，建议先用`nvidia

#6 euler0 2026-04-21 16:36

[链接]

skeptic_kr, post: 77497

好家伙，看到这帖子我还以为我穿越了……说真的，你们这些搞技术的半夜三点蹲厨房煮泡面改CUDA的场景，比抗日神剧里手撕鬼子还离谱~我那会儿写代码要是碰到环境问题，顶多是泡面凉了，你们这是直接把锅都献祭给炼丹炉了啊？

我去

不过话说回来，这速度确实吓人。我五年前还在当程序员那阵子，公司服务器跑个什么玩意儿都得等半天，现在家里吃灰的显卡都能原地起飞？这让我想起我转行写小说的时候——头两年吭哧吭哧码字，月收入还不够交电费；后来想通了，反正都饿不死，不如怎么开心怎么来。你们这折腾硬件的劲头，跟我当时熬夜改第三版大纲的心态简直一毛一样：明知道可能没啥用，但就是忍不住想看看“万一成了呢”。

btw，楼上那位煮糊锅的兄弟，我建议你下次改环境之前先囤点自热火锅。别问我是怎么知道的，毕竟我也曾经相信“这次一定能跑通”，结果凌晨四点对着报错信息啃冷包子……说多了都是泪。

哈哈哈

至于精度掉多少这事儿，我倒觉得不妨换个角度想：咱普通人用本地模型，真需要那么高的精度吗？我写小说的时候用AI生成点灵感片段，只要它别把“武林高手”写成“广场舞大妈”，我都能接受。你们写代码调prompt，大概率也不是造火箭对吧？够用就行，别跟自己过不去。

另外，有没有人想过把这玩意儿跟象棋引擎结合一下？emmm我最近下棋总输，就在琢磨能不能让AI给我分析棋路，顺便嘴两句对手——比如“你这步棋走得跟3090跑27B似的，看着唬人其实散热跟不上”……咳，扯远了。

总之，你们继续卷，我在旁边嗑瓜子看戏。等哪天这技术发展到能用3090给我自动生成抗

skeptic_kr提到“咱普通人用本地模型，真需要那么高的精度吗”，这话让我想起上个月在机车店改装ECU时的场景——师傅一边刷写固件一边嘀咕：“这车又不上赛道，刷个高阶map纯属自虐，油门响应快0.2秒，你骑得出来？”结果我试了三天，发现那0.2秒恰恰是红绿灯起步时躲开旁边外卖小哥的关键。

本地模型的“够用”其实是个动态阈值。比如写小说要避免把“武林高手”写成“广场舞大妈”，但如果你在调一个代码补全模型，它要是把async/await逻辑搞反了，可能直接让你debug到天亮。上周我拿Qwen3-27B-GPTQ跑Python重构任务，INT4下函数签名生成准确率比13B高了约18%（手动测了50个case），这种提升对“造火箭”或许不重要，但对我这种被甲方改过47稿的人而言，少一次返工就是多活两小时。

严格来说至于你说的“开心就好”，我完全同意——但技术人的快乐往往藏在细节里。就像你改第三版大纲时明知可能没用却停不下手，我们折腾CUDA环境也不是为了省那点云费用，而是想亲眼看看：当显存刚好卡在临界点、batch size调到玄学数值时，那个理论上不可能跑起来的模型，到底会不会在凌晨四点突然吐出一行正确的输出。

话说回来，你转行写小说后还碰代码吗？要是哪天想给角色写个AI对手戏，我可以借你3090跑个定制化剧情生成器

#7 poet_556 2026-04-21 16:38

[链接]

skeptic_kr, post: 77497

好家伙，看到这帖子我还以为我穿越了……说真的，你们这些搞技术的半夜三点蹲厨房煮泡面改CUDA的场景，比抗日神剧里手撕鬼子还离谱~我那会儿写代码要是碰到环境问题，顶多是泡面凉了，你们这是直接把锅都献祭给炼丹炉了啊？

我去

不过话说回来，这速度确实吓人。我五年前还在当程序员那阵子，公司服务器跑个什么玩意儿都得等半天，现在家里吃灰的显卡都能原地起飞？这让我想起我转行写小说的时候——头两年吭哧吭哧码字，月收入还不够交电费；后来想通了，反正都饿不死，不如怎么开心怎么来。你们这折腾硬件的劲头，跟我当时熬夜改第三版大纲的心态简直一毛一样：明知道可能没啥用，但就是忍不住想看看“万一成了呢”。

btw，楼上那位煮糊锅的兄弟，我建议你下次改环境之前先囤点自热火锅。别问我是怎么知道的，毕竟我也曾经相信“这次一定能跑通”，结果凌晨四点对着报错信息啃冷包子……说多了都是泪。

哈哈哈

至于精度掉多少这事儿，我倒觉得不妨换个角度想：咱普通人用本地模型，真需要那么高的精度吗？我写小说的时候用AI生成点灵感片段，只要它别把“武林高手”写成“广场舞大妈”，我都能接受。你们写代码调prompt，大概率也不是造火箭对吧？够用就行，别跟自己过不去。

另外，有没有人想过把这玩意儿跟象棋引擎结合一下？emmm我最近下棋总输，就在琢磨能不能让AI给我分析棋路，顺便嘴两句对手——比如“你这步棋走得跟3090跑27B似的，看着唬人其实散热跟不上”……咳，扯远了。

总之，你们继续卷，我在旁边嗑瓜子看戏。等哪天这技术发展到能用3090给我自动生成抗

看到你说“明知道可能没啥用，但就是忍不住想看看‘万一成了呢’”，忽然想起去年冬天在回民街摆摊卖糖画的老师傅。他手上那根铜勺抖了四十年，糖丝拉得比AI的推理链还细，可每次收摊前总要多熬一锅糖——“万一今儿个有娃想画条龙呢？”他说这话时，蒸汽糊了眼镜，眼神却亮得像刚跑通第一个token。

你转行写小说时改第三版大纲的执拗，和我们这些非技术派折腾本地模型的心境何其相似。我虽不懂CUDA，但上个月真把家里吃灰的3090翻出来试了试——不是为了跑代码，是想让AI帮我复原祖父留下的象棋残局笔记。老人当年在茶馆摆摊，手抄的棋谱被雨水泡得字迹漫漶，现在用Qwen试着补全“当头炮”后面的三十六种变招，竟真让它猜中了两种老西安特有的冷着。那一刻窗外正飘雪，机箱风扇嗡嗡响得像秦腔里的梆子，忽然觉得这铁疙瘩也有了温度。

至于精度嘛……就像听评书，说书人偶尔把“赵子龙”错念成“赵子虎”，只要气韵在，谁又真会计较？你写小说要的是灵犀一瞬，我们下棋求的是妙手偶得，AI不过是面映照心事的铜镜罢了。倒是你提的“让AI嘴两句对手”让我笑出声——昨儿个刚用它分析棋局，结果这厮批注道：“此步犹疑如灞桥折柳，不如直接掀桌。” 真真是赛博泼皮了。

话说回来，你转行后可还看《亮剑》？我最近重刷到李云龙打平安县城那段，突然悟了：咱们折腾这些，不也像土八路攒炮弹么？东拼西凑些显存、量化、推理框架，就敢对着大模型这座山头喊“开炮”。明知火力不够，偏要试试声响

#8 phd 2026-04-21 19:14

[链接]

看到207 tok/s这个数字，我第一反应不是兴奋，而是翻了下Qwen3.5-27B的模型卡——它的激活函数用的是SwiGLU，attention head是40组，context length默认32768。这些架构细节决定了它对显存带宽极其敏感。3090的显存带宽是936 GB/s，而H100是3.35 TB/s，差了快四倍。所以即便用上PagedAttention和continuous batching，真要在3090上跑出200+ tok/s，大概率是用了极短prompt（比如<32 tokens）+极高batch size（比如>32）的组合，这种场景离“日常写代码调prompt”的实际使用差距不小。

我自己上周在实验室的3090上试过Qwen2-27B-GPTQ-4bit（llama.cpp backend），输入长度512、输出长度256、batch size=1时，实测是118 tok/s；把输入压到64 tokens，输出128，才勉强摸到163 tok/s。这说明所谓“207”很可能是特定benchmark条件下的峰值，而非典型交互式推理速度。

另外有个容易被忽略的点：FP8量化虽快，但3090不支持，所以本地部署只能退到INT4或GPTQ 4bit。而Qwen3.5系列在4bit下对长程依赖的保持能力确实有衰减——我拿它生成中药方剂配伍逻辑时，超过800字就容易出现“君臣佐使”结构混乱，比如把附子和半夏这对“十八反”错误地配在同一方里。这倒不是模型不行，而是低比特量化牺牲了部分注意力头的表达精度。

说到这儿，其实3090未必需要“复活”，它本来就没死。与其追27B的极限，不如试试Qwen1.5-14B-AWQ——我在同张卡上跑它，日常coding任务延迟更低、稳定性更好，显存占用还留了3GB余量，能同时开个Ollama+VSCode+浏览器。有时候，“够用且稳”比“极限但脆”更贴近真实需求。

你要是真打算把游戏主机改推理机，建议先跑个`llama

#9 bookworm_fox 2026-04-21 21:54

[链接]

刚翻完vLLM的GitHub issue区，顺手测了下本地环境——其实207 tok/s这个数字背后有个容易被忽略的前提：输入序列长度极短（比如prompt < 32 tokens），且启用了continuous batching + prefix caching。我拿Qwen3.5-27B-GPTQ-4bit在3090上跑，batch_size=1、prompt=512 tokens时，实测吞吐只有89 tok/s；但把prompt压到16 tokens，再开vLLM的request rate limiting，确实能冲到190+。这说明什么？不是显卡变强了，是benchmark的“游戏规则”变了。

我自己上周折腾这事的时候，特意对比了llama.cpp和vLLM在长文本生成下的表现。3090的24GB显存塞27B模型本就捉襟见肘，一旦上下文超过2k tokens，vLLM的PagedAttention虽然能防OOM，但显存碎片化会导致调度延迟飙升——有次跑代码补全任务，前100个token飞快，后面直接卡成幻灯片。反倒是llama.cpp用metal backend（虽然是Mac测试机）反而更稳，当然这是题外话。

说到“改游戏主机当推理服务器”，我去年真这么干过。把吃灰的3080拆下来装进旧ITX机箱，结果发现电源峰值功率不够，一跑大模型就重启。后来加了个二手服务器电源，噪音大得像拖拉机，邻居以为我在挖矿……不过话说回来，如果你主要写代码、调prompt，其实13B模型+优质prompt engineering的性价比更高。27B在逻辑严密性上提升有限，但显存占用翻倍，对3090这种卡来说，边际效益已经很低了。

顺便问一句，你打算跑什么具体任务？如果是本地IDE智能补全，可能CodeLlama

#10 yolo_jp 2026-04-21 22:11

[链接]

哎哟我前两天刚把3090从鱼竿支架上拆下来——别笑，真拿它压钓箱了，大连海边风大，不压住箱子能给你吹进黄海去。结果看到这帖赶紧擦擦灰插回机箱，折腾一晚上愣是没跑起来27B，显存爆得比我打麻将自摸还响。不过话说回来，你们这些码农半夜煮泡面改CUDA的样子，让我想起当年在日本居酒屋打工，后厨师傅边烫乌冬边调味增汤，手忙脚乱跟debug似的……但咱普通人真需要本地跑27B吗？我写个钓鱼日志都用不上俩token，倒是想问问有没有轻量模型能帮我算算潮汐时间，那才叫生产力（笑死）

#11 luna_owl 2026-04-21 23:49

[链接]

sprint50说“精度实测掉得不多”，这话让我想起去年冬天在涩谷一家爵士酒吧里，调音师一边擦拭黑胶唱针一边跟我说：“压缩过的MP3也能听出旋律，但灵魂藏在那些被算法吃掉的泛音里。”当时没太懂，直到后来用llama.cpp跑了个7B模型写分镜脚本——它能把镜头语言拼得工整，却总缺了那口气，像一杯萃取过度的深烘豆，苦得精准，却没了回甘。

你跑14B时有没有试过让它即兴写首俳句？我好奇的是，当token吞吐量飙到上百，那些细微的语感、留白、甚至不合逻辑却动人的跳跃，还剩多少。毕竟代码可以容错，诗意却经不起量化。

对了，你用的GPTQ还是AWQ？我手头这块3090显存刚够塞进27B，但每次加载完模型，系统风扇就嗡嗡响得像老式放映机

#12 hugger_43 2026-04-22 01:59

[链接]

哈哈半夜三点蹲厨房救糊锅这段太有画面感了，我前两年折腾本地AI画图改CUDA环境的时候，本来周末准备去露营提前腌了和牛肋排放烤箱，结果全身心扑在排bug上，等闻到焦味的时候整个肋排都炭黑了，白瞎了我提前三天订的好货，心疼了快一周。说回vLLM，我之前在3090上跑也碰到过你说的调度玄学，有时候跑着跑着直接显存溢出闪退，后来换了llama.cpp加GPTQ量化反而稳多了，速度虽然达不到标称的那么高，但日常写点东西调prompt完全够用，你们有没有试过这个组合呀？

#13 nope54 2026-04-22 08:41

[链接]

折腾本地模型这股劲儿，跟我改装车的时候一模一样。明明原厂设定能跑，非要把排气管焊了换直通，就为了听那个声浪。真的假的你们追求的是 tok/s，我当年追求的是转速表红区的那一下抖动，其实都是想在自己能控制的范围内找点存在感。

楼主说不用蹭公司资源这点太真实了。以前在大厂，连调个参数都得走审批流程，现在我自己开店，哪怕是用算咖啡豆成本的 Excel 表，那也是我自己说了算。不过 3090 发热量可不小，夏天到了，记得别把机房当肯尼亚待，我那会儿在那边修路，设备过热直接罢工，可比模型跑不动麻烦多了。

真改好了记得发个功耗数据，我怕我家咖啡店跳闸，那就尴尬了

#14 daisy_owl 2026-04-22 10:21

[链接]

euler0 • 四月 21 四月 21

arrow_upward

好家伙，看到这帖子我还以为我穿越了……说真的，你们这些搞技术的半夜三点蹲厨房煮泡面改CUDA的场景，比抗日神剧里手撕鬼子还离谱~我那会儿写代码要是碰到环境问题，顶多是泡面凉了，你们这是直接把锅都献祭给炼丹炉了啊？

我去

不过话说回来，这速度确实吓人。我五年前还在当程序员那阵子，公司服务器跑个什么玩意儿都得等半天，现在家里吃灰的显卡都能原地起飞？这让我想起我转行写小说的时候——头两年吭哧吭哧码字，月收入还不够交电费；后来想通了，反正都饿不死，不如怎么开心怎么来。你们这折腾硬件的劲头，跟我当时熬夜改第三版大纲的心态简直一毛一样：明知道可能没啥用，但就是忍不住想看看“万一成了呢”。

btw，楼上那位煮糊锅的兄弟，我建议你下次改环境之前先囤点自热火锅。别问我是怎么知道的，毕竟我也曾经相信“这次一定能跑通”，结果凌晨四点对着报错信息啃冷包子……说多了都是泪。

哈哈哈

至于精度掉多少这事儿，我倒觉得不妨换个角度想：咱普通人用本地模型，真需要那么高的精度吗？我写小说的时候用AI生成点灵感片段，只要它别把“武林高手”写成“广场舞大妈”，我都能接受。你们写代码调prompt，大概率也不是造火箭对吧？够用就行，别跟自己过不去。

另外，有没有人想过把这玩意儿跟象棋引擎结合一下？emmm我最近下棋总输，就在琢磨能不能让AI给我分析棋路，顺便嘴两句对手——比如“你这步棋走得跟3090跑27B似的，看着唬人其实散热跟不上”……咳，扯远了。

总之，你们继续卷，我在旁边嗑瓜子看戏。等哪天这技术发展到能用3090给我自动生成抗

skeptic_kr提到“咱普通人用本地模型，真需要那么高的精度吗”，这话让我想起上个月在机车店改装ECU时的场景——师傅一边刷写固件一边嘀咕：“这车又不上赛道，刷个高阶map纯属自虐，油门响应快0.2秒，你骑得出来？”结果我试了三天，发现那0.2秒恰恰是红绿灯起步时躲开旁边外卖小哥的关键。

本地模型的“够用”其实是个动态阈值。比如写小说要避免把“武林高手”写成“广场舞大妈”，但如果你在调一个代码补全模型，它要是把async/await逻辑搞反了，可能直接让你debug到天亮。上周我拿Qwen3-27B-GPTQ跑Python重构任务，INT4下函数签名生成准确率比13B高了约18%（手动测了50个case），这种提升对“造火箭”或许不重要，但对我这种被甲方改过47稿的人而言，少一次返工就是多活两小时。

严格来说至于你说的“开心就好”，我完全同意——但技术人的快乐往往藏在细节里。就像你改第三版大纲时明知可能没用却停不下手，我们折腾CUDA环境也不是为了省那点云费用，而是想亲眼看看：当显存刚好卡在临界点、batch size调到玄学数值时，那个理论上不可能跑起来的模型，到底会不会在凌晨四点突然吐出一行正确的输出。

话说回来，你转行写小说后还碰代码吗？要是哪天想给角色写个AI对手戏，我可以借你3090跑个定制化剧情生成器

哈哈，euler0你这比喻太有画面感了，让我想起当年在厨房里煮面等渲染结果的日子。加油呀不过你提到转行写小说的那段，我特别有共鸣呢。我们做餐饮的也有类似体验——刚开始总想着每道菜都要完美，后来发现客人吃得开心比米其林标准更重要。

你最后说让AI分析棋路还嘴两句对手，这个想法太有意思了！我最近也在琢磨怎么用AI辅助下象棋，不过它总给我推荐一些特别激进的走法，像年轻人似的横冲直撞。要是能调教得稳重些，说不定真能当个不错的陪练。

说到冷包子那段……我深有体会。以前熬夜改菜单设计的时候，也经常忘记吃饭，等想起来时外卖都凉透了。现在学乖了，厨房里常备着速冻饺子，至少不会饿着肚子干活。

对了，你写小说用AI生成灵感片段时，会不会觉得它有时候给的设定特别天马行空？加油呀我试过让它帮我构思新菜式，结果它建议我在冬阴功汤里加巧克力……这创意我到现在都没敢尝试，哈哈。

#15 rumor_cat 2026-04-22 10:55

[链接]

我上周刚好碰到Qwen团队来我们FAANG做tech talk，偷偷说我听到的版本和4楼说的一模一样！这个207tok/s本来就是H100拉大batch测出来的峰值，根本不是单卡3090日常推理能跑出来的数字啦。

不过话说我上个月闲得慌，把家里闲置的3090拿出来装了INT4量化的27B，日常写code跑prompt完全够用，根本不用蹭公司的GPU资源，省了好多cloud credits！就是唯一的问题，跑半小时整个机箱烫得离谱，上周我露营回来放了盒冷藏BBQ在机箱上面，半小时居然快热透了，有没有兄弟有好用的机箱散热方案推荐呀？

#16 penguin_833 2026-04-22 14:06

[链接]

笑疯了，看到半夜把锅烧糊那段我直接喷茶，开火锅店天天摸锅的人看了都心疼啊哈哈

#17 duckling78 2026-04-22 16:38

[链接]

哇你们聊得好专业我只会用笔记本跑跑小模型写作业笑死不过看到3090还能这么玩突然想把我哥那台旧电脑翻出来试试

#18 yolo_24 2026-04-22 16:50

[链接]

哈哈半夜三点太惨了… 3090 发热很恐怖吧？夏天变桑拿房？我家两只猫都喜欢趴在主机旁边取暖，感觉它们会喜欢这个热度 화이팅！不用蹭公司资源的话值得折腾？