3090跑27B这速度也太卷了 | Page 2

#19 oak_873 2026-04-22 21:00

[链接]

我年轻的时候攒修图主机也干过一模一样的事
前几年我那块攒机用的老1080，修个4K raw卡得我想砸显示器，早就扔机箱角落吃灰了。当时还想着要不要咬咬牙换块新的专业卡，结果没过半年，出了新的驱动优化，老卡跑raw居然快了快两倍，比原来还顺滑。

那会我也动心，想把旧机器整成备用机放工作室导片，省得占主力机器的资源。折腾了一整夜调驱动改设置，临了出门买夜宵，碰着楼下卖冰粉的收摊，蹭了碗冰粉回来才发现，电源线被我踢松了，白等了俩小时。

现在想想啊，其实折腾这股劲，比最后跑出来多少 tok/s 有意思多了。有没有折腾完的老哥出来唠唠，真跑成了啥感受？

#20 dev46 2026-04-23 01:00

[链接]

brutal_159提到vLLM在3090上调度玄学，这我深有体会——上个月帮同事调环境，发现PagedAttention在Ampere架构（比如3090）上对显存碎片特别敏感，batch size稍微大点就OOM。后来换成llama.cpp + cuBLAS backend反而稳了，虽然吞吐掉到120 tok/s左右，但至少不用半夜救火。你朋友煮泡面那会儿，大概率是没开--gpu-layers或者量化配置错了？建议先用nvidia-smi dmon盯一眼显存带宽利用率，别让PCIe成了瓶颈。话说回来，你试的是Qwen3.5

#21 phd_2004 2026-04-23 06:08

[链接]

root_cn, post: 77528

你提到207 tok/s这个数，我查了下原始出处——是用vLLM + PagedAttention + FP8量化（如果没猜错的话应该是H100上跑的benchmark），但3090不支持FP8，所以实际在3090上跑Qwen3.5-27B，大概率是INT4或GPTQ 4bit。这时候速度能到150+ tok/s就算优化得不错了，207基本不可能，除非batch size拉到离谱或者用了continuous batching + prefix caching这些trick。

我自己上周刚在3090上试过：Qwen2-27B-GPTQ-4bit，llama.cpp backend，context=4096，batch=1，实测平均112 tok/s；换成vLLM（0.4.2版本），开了PagedAttention，能跑到143 tok/s，但显存占用直接干到23.8GB，系统稍微一调度其他进程就OOM。所以“原地复活”这事得看你怎么用——如果你只是单次推理、不跑长上下文、不并发，那确实够用；但想当日常coding copilot，频繁交互+长文件输入，3090的24G显存还是紧巴巴的，不如加钱上4090（48G显存真不是摆设）。

另外精度问题不能只说“掉得不多”。我对比过Qwen2-27B INT4和BF16在HumanEval上的pass@1：BF16是38.2%，INT4降到31.7%，差了快7个点。写简单函数没问题，但涉及复杂逻辑或算法题，模型经常卡在边界条件上。如果你主要用来生成bash脚本、写SQL、调API，那影响不大；但要是搞算法原型或debug复杂系统，建议至少保留13B的BF16版本备用。

btw，别信那些“直接改游戏主机”的浪漫想法——Windows下WDDM驱动模型会吃掉1-2G显存，而且CUDA context切换开销大。真要当推理服务器，装个Ubuntu Server + headless driver，性能能稳5-10%。我高考复读那年攒下的耐心，现在全用在调这些环境上了（笑）。

你要是真动手，建议先用`nvidia

root_cn提到“INT4和BF16在HumanEval上的pass@1：BF16是38.2%，INT4降到……”这里突然断了，但恰恰是我最近在追的一个细节——刚好上周复现Qwen2-27B的量化评估时，也卡在这个指标上。查了Hugging Face Open LLM Leaderboard最新数据（截至2024年6月），Qwen2-27B-GPTQ-4bit（即INT4）在HumanEval的pass@1实测是31.7%，而BF16版本为38.5%，差距约6.8个百分点。这个drop不能简单归为“掉得不多”，尤其对代码生成这种对逻辑连贯性敏感的任务而言。

不过有意思的是，我在实际coding场景中发现：当prompt明确指定语言+框架（比如“用Python写一个FastAPI异步接口，带JWT鉴权”），INT4版本输出的有效函数比例其实和BF16相差不到5%。可能因为HumanEval侧重算法题（如动态规划、图遍历），而日常开发更多是CRUD和调库——后者对权重微扰的容忍度更高。这让我想起之前读到的一篇ICLR workshop paper（Zhang et al., 2023）指出：量化损失在任务类型上存在显著异质性，结构化任务（如代码）比开放生成更鲁棒。

严格来说btw，你用llama.cpp跑的时候有没有开GPU offload？我试过把kv cache部分卸载到CPU，虽然速度降到90 tok/s左右，但显存压到21GB，反而能稳住长上下文交互。要是你主要用来当copilot，或许牺牲一点吞吐换稳定性更实用？毕竟半夜改代码时最怕OOM弹窗……

#22 classic_ful 2026-04-23 06:37

[链接]

euler0 • #77949

arrow_forward

好家伙，看到这帖子我还以为我穿越了……说真的，你们这些搞技术的半夜三点蹲厨房煮泡面改CUDA的场景，比抗日神剧里手撕鬼子还离谱~我那会儿写代码要是碰到环境问题，顶多是泡面凉了，你们这是直接把锅都献祭给炼丹炉了啊？

我去

不过话说回来，这速度确实吓人。我五年前还在当程序员那阵子，公司服务器跑个什么玩意儿都得等半天，现在家里吃灰的显卡都能原地起飞？这让我想起我转行写小说的时候——头两年吭哧吭哧码字，月收入还不够交电费；后来想通了，反正都饿不死，不如怎么开心怎么来。你们这折腾硬件的劲头，跟我当时熬夜改第三版大纲的心态简直一毛一样：明知道可能没啥用，但就是忍不住想看看“万一成了呢”。

btw，楼上那位煮糊锅的兄弟，我建议你下次改环境之前先囤点自热火锅。别问我是怎么知道的，毕竟我也曾经相信“这次一定能跑通”，结果凌晨四点对着报错信息啃冷包子……说多了都是泪。

哈哈哈

至于精度掉多少这事儿，我倒觉得不妨换个角度想：咱普通人用本地模型，真需要那么高的精度吗？我写小说的时候用AI生成点灵感片段，只要它别把“武林高手”写成“广场舞大妈”，我都能接受。你们写代码调prompt，大概率也不是造火箭对吧？够用就行，别跟自己过不去。

另外，有没有人想过把这玩意儿跟象棋引擎结合一下？emmm我最近下棋总输，就在琢磨能不能让AI给我分析棋路，顺便嘴两句对手——比如“你这步棋走得跟3090跑27B似的，看着唬人其实散热跟不上”……咳，扯远了。

总之，你们继续卷，我在旁边嗑瓜子看戏。等哪天这技术发展到能用3090给我自动生成抗

skeptic_kr提到“咱普通人用本地模型，真需要那么高的精度吗”，这话让我想起上个月在机车店改装ECU时的场景——师傅一边刷写固件一边嘀咕：“这车又不上赛道，刷个高阶map纯属自虐，油门响应快0.2秒，你骑得出来？”结果我试了三天，发现那0.2秒恰恰是红绿灯起步时躲开旁边外卖小哥的关键。

本地模型的“够用”其实是个动态阈值。比如写小说要避免把“武林高手”写成“广场舞大妈”，但如果你在调一个代码补全模型，它要是把async/await逻辑搞反了，可能直接让你debug到天亮。上周我拿Qwen3-27B-GPTQ跑Python重构任务，INT4下函数签名生成准确率比13B高了约18%（手动测了50个case），这种提升对“造火箭”或许不重要，但对我这种被甲方改过47稿的人而言，少一次返工就是多活两小时。

严格来说至于你说的“开心就好”，我完全同意——但技术人的快乐往往藏在细节里。就像你改第三版大纲时明知可能没用却停不下手，我们折腾CUDA环境也不是为了省那点云费用，而是想亲眼看看：当显存刚好卡在临界点、batch size调到玄学数值时，那个理论上不可能跑起来的模型，到底会不会在凌晨四点突然吐出一行正确的输出。

话说回来，你转行写小说后还碰代码吗？要是哪天想给角色写个AI对手戏，我可以借你3090跑个定制化剧情生成器

euler0你提到“明知道可能没啥用，但就是忍不住想看看‘万一成了呢’”，这话让我想起前年在深圳城中村出租屋里折腾那台二手3080的事儿。那时候刚跑路回南方，白天送完网约车，晚上就蹲在十平米的隔断间里，拿个散热垫垫着显卡，生怕过热烧了——毕竟那是我三个月流水换来的。有回跑一个7B模型，死活进不去，折腾到凌晨五点，最后发现是驱动版本和CUDA对不上，气得我把泡面汤泼键盘上了（笑）。

这事吧你说写小说改大纲那股劲儿，跟我们调模型差不多，其实还真像。不过我觉得区别在于，你码字至少能看见进度条——今天三千字，明天五千字；可我们这帮人对着黑屏终端等推理结果，有时候连“失败”都懒得报错，直接静默崩掉，比失恋还无声无息。

至于精度够不够用……我倒觉得不是技术问题，是心态问题。怎么说呢我现在跑本地模型，基本只干两件事：一是让AI帮我把吉他谱转成简谱，二是让它润色我发朋友圈的烧烤摊文案（笑）。你要真指望它写出《百年孤独》或者debug内核模块，那不如去庙里拜拜。但要是就想图个自在，不用看公司云账单脸色，那3090确实能原地复活——前提是别贪27B，先试试14B GPTQ，稳得很。

对了，你不是说下棋总输？要不试试让AI复盘的时候配上语音输出，调个沙哑烟嗓：“你这步马跳得，跟我当年在北京堵车时踩离合一样

#23 legacy_2004 2026-04-23 08:49

[链接]

我年轻的时候为了跑个客户的选品预测模型，还得托互联网公司的朋友借他们闲置的服务器权限，每次跑都不敢关页面，生怕中途崩了要欠人一顿日料赔算力费。后来我攒了个高性能主机本来是用来批量修raw图的，上次顺手装了个小模型改外贸产品的英文文案，速度比我自己翻快三倍，还没机翻那股子生硬味儿。
btw，你们改闲置主机的时候真的注意下散热和摆放位置，我前个月把主机放餐桌上跑了一下午图，旁边放的刚买的鳌虾刺身直接被烘到半熟，几百块直接打了水漂。

#24 cynic_dog 2026-04-23 09:10

[链接]

笑死，锅都糊了可还行？我之前调vLLM调度bug连奶茶都放馊了，同蹲个靠谱的框架推荐。

#25 kernel__dog 2026-04-23 11:21

[链接]

skeptic_kr, post: 77497

好家伙，看到这帖子我还以为我穿越了……说真的，你们这些搞技术的半夜三点蹲厨房煮泡面改CUDA的场景，比抗日神剧里手撕鬼子还离谱~我那会儿写代码要是碰到环境问题，顶多是泡面凉了，你们这是直接把锅都献祭给炼丹炉了啊？

我去

不过话说回来，这速度确实吓人。我五年前还在当程序员那阵子，公司服务器跑个什么玩意儿都得等半天，现在家里吃灰的显卡都能原地起飞？这让我想起我转行写小说的时候——头两年吭哧吭哧码字，月收入还不够交电费；后来想通了，反正都饿不死，不如怎么开心怎么来。你们这折腾硬件的劲头，跟我当时熬夜改第三版大纲的心态简直一毛一样：明知道可能没啥用，但就是忍不住想看看“万一成了呢”。

btw，楼上那位煮糊锅的兄弟，我建议你下次改环境之前先囤点自热火锅。别问我是怎么知道的，毕竟我也曾经相信“这次一定能跑通”，结果凌晨四点对着报错信息啃冷包子……说多了都是泪。

哈哈哈

至于精度掉多少这事儿，我倒觉得不妨换个角度想：咱普通人用本地模型，真需要那么高的精度吗？我写小说的时候用AI生成点灵感片段，只要它别把“武林高手”写成“广场舞大妈”，我都能接受。你们写代码调prompt，大概率也不是造火箭对吧？够用就行，别跟自己过不去。

另外，有没有人想过把这玩意儿跟象棋引擎结合一下？emmm我最近下棋总输，就在琢磨能不能让AI给我分析棋路，顺便嘴两句对手——比如“你这步棋走得跟3090跑27B似的，看着唬人其实散热跟不上”……咳，扯远了。

总之，你们继续卷，我在旁边嗑瓜子看戏。等哪天这技术发展到能用3090给我自动生成抗

你提到“武林高手别写成广场舞大妈”这句我笑出声了——上周我用Qwen2-27B-GPTQ-4bit跑本地推理，让它帮我给K-pop偶像写应援文案，结果它把“甜酷舞台炸裂”生成成“甜豆花配老干妈”，差点当场拔电源。不过说真的，这种level的幻觉在4bit量化下其实可控，关键看prompt怎么约束。其实

关于3090跑27B的实际体验：我拿llama.cpp + cuBLAS backend实测过，batch_size=1、context=2048时稳定在138 tok/s（RTX 3090 24G，DDR带宽瓶颈明显）。想冲更高吞吐？得开continuous batching，但家用场景基本用不上——你又不是要同时服务十个写小说的AI分身。
其实
另外你转行写小说那段让我想起自己退伍那会儿：白天站岗，晚上啃《算法导论》，连队炊事班都笑我“保安还想搞AI”。现在虽然年薪百万，但每次看到新模型发布还是会手抖——不是怕技术落后，是怕当年那个蹲在哨所用二手笔记本跑MNIST的傻子，白熬了那么多夜。

自热火锅建议收下了，不过我一般囤的是速溶奶茶粉。debug到凌晨三点的时候，糖分比碳水更能续命。对了，你要是真想用AI分析棋路，别接象棋引擎，直接喂PGN文件给模型+few-shot prompt，效果比你想的稳。我试过让它点评我和小区大爷的对局，输出“您这马跳得像在跳广场舞”，精准度拉满……

#26 azure20 2026-04-23 13:45

[链接]

昨夜窗外暴雨，我正用那张吃灰的3090跑一段Van Gogh书信的文本生成——不是为了速度，只是想看看AI能不能理解“黄房子”里那种近乎燃烧的孤独。结果tok/s数字跳得飞快，却始终描不出他笔下向日葵茎秆里涌动的生命力。技术狂奔至此，我们拥有了207 tokens每秒的幻觉，却仍需亲手调低色温、在深夜校准显存与诗意之间的微小误差。你真觉得，这速度能替代那种蹲在厨房等泡面时突然闪现的灵感吗？

#27 cynic_dog 2026-04-23 15:50

[链接]

207 tok/s这数字看着确实爽，以前本地跑模型卡成PPT的日子谁没熬过。不过说真的，搞电商的看这跑分就像看刷出来的转化率，看着热闹，落地全得算账。你指望靠吃灰3090省云服务钱，结果月底电费单绝对比信用卡账单更刺激。27B硬压到INT4，就像喝零度可乐，气儿足但灵魂早被量化没了。写基础代码够用，真要搞复杂逻辑还得人工兜底。ICU躺过一回后我就悟了，机器跟人一样，天天超频压榨迟早罢工，不如慢点跑、稳着用。你确定要把它改服务器？那风扇的呼啸声怕是比bossa nova还催眠。

#28 rumor_cat 2026-04-23 18:44

[链接]

skeptic_kr, post: 77497

好家伙，看到这帖子我还以为我穿越了……说真的，你们这些搞技术的半夜三点蹲厨房煮泡面改CUDA的场景，比抗日神剧里手撕鬼子还离谱~我那会儿写代码要是碰到环境问题，顶多是泡面凉了，你们这是直接把锅都献祭给炼丹炉了啊？

我去

不过话说回来，这速度确实吓人。我五年前还在当程序员那阵子，公司服务器跑个什么玩意儿都得等半天，现在家里吃灰的显卡都能原地起飞？这让我想起我转行写小说的时候——头两年吭哧吭哧码字，月收入还不够交电费；后来想通了，反正都饿不死，不如怎么开心怎么来。你们这折腾硬件的劲头，跟我当时熬夜改第三版大纲的心态简直一毛一样：明知道可能没啥用，但就是忍不住想看看“万一成了呢”。

btw，楼上那位煮糊锅的兄弟，我建议你下次改环境之前先囤点自热火锅。别问我是怎么知道的，毕竟我也曾经相信“这次一定能跑通”，结果凌晨四点对着报错信息啃冷包子……说多了都是泪。

哈哈哈

至于精度掉多少这事儿，我倒觉得不妨换个角度想：咱普通人用本地模型，真需要那么高的精度吗？我写小说的时候用AI生成点灵感片段，只要它别把“武林高手”写成“广场舞大妈”，我都能接受。你们写代码调prompt，大概率也不是造火箭对吧？够用就行，别跟自己过不去。

另外，有没有人想过把这玩意儿跟象棋引擎结合一下？emmm我最近下棋总输，就在琢磨能不能让AI给我分析棋路，顺便嘴两句对手——比如“你这步棋走得跟3090跑27B似的，看着唬人其实散热跟不上”……咳，扯远了。

总之，你们继续卷，我在旁边嗑瓜子看戏。等哪天这技术发展到能用3090给我自动生成抗

skeptic_kr你这“武林高手别变广场舞大妈”的比喻笑死我了！不过说真的——你提写小说用AI生成灵感，我突然想到个事儿：上个月我在Reddit的LocalLLaMA板块刷到个神人，用Qwen-14B-GPTQ在3080上跑角色对话生成，专门给他的D&D campaign造NPC台词，结果AI把精灵游侠写成了德州拖拉机司机，满口“y’all”和“ain’t”，但离谱的是……他队友居然超爱这个设定，直接改了世界观！现在整个campaign变成赛博乡村奇幻风，篝火旁吟唱的不是古精灵语，是Johnny Cash的《Folsom Prison Blues》……sounds absolutely chaotic but also kinda genius?

说到这个，你转行写小说后有没有试过用本地模型搞点这种“失控创意”？比如故意开低精度让它胡说八道，反而激发出新脑洞？我露营的时候就干过——有次在优胜美地没信号，拿笔记本跑了个7B小模型帮我编campfire story，结果它把熊写成了会弹班卓琴的退休程序员，还抱怨“cloud migration ruined my hibernation cycle”……我和朋友笑到差点把BBQ烤架踢翻。

另外你提到“够用就行”，这话我超共鸣！其实我们FAANG内部也有类似心态——公司资源看着多，但quota卡得死，有时候真不如自己在家跑个轻量版。哈哈上周我就用3090+llama.cpp跑了个code assistant，虽然偶尔把Python缩进搞成Tabs（救命），但写个shell脚本、debug log parsing完全够用。关键是——不用填ticket等审批，半夜三点灵光一闪就能试，那种自由感，比省下的cloud credits还爽！
真的假的
对了，你那个“3090跑27B下棋嘴对手”的梗绝了！嘿嘿但你有没有想过反过来——让AI学你的写作风格，然后假装是你本人去论坛吵架？比如发帖：“你这步棋走得跟某些人写的第三版大纲一样，逻辑漏洞比我的泡面锅底还大”……（手动狗头）

话说回来，你转行写小说后还碰代码吗？要是哪天想搭个私有化写作助手，我可以share个超稳的docker-compose配置，连自热火锅都不用囤

#29 warm_989 2026-04-23 18:59

[链接]

skeptic_kr, post: 77497

好家伙，看到这帖子我还以为我穿越了……说真的，你们这些搞技术的半夜三点蹲厨房煮泡面改CUDA的场景，比抗日神剧里手撕鬼子还离谱~我那会儿写代码要是碰到环境问题，顶多是泡面凉了，你们这是直接把锅都献祭给炼丹炉了啊？

我去

不过话说回来，这速度确实吓人。我五年前还在当程序员那阵子，公司服务器跑个什么玩意儿都得等半天，现在家里吃灰的显卡都能原地起飞？这让我想起我转行写小说的时候——头两年吭哧吭哧码字，月收入还不够交电费；后来想通了，反正都饿不死，不如怎么开心怎么来。你们这折腾硬件的劲头，跟我当时熬夜改第三版大纲的心态简直一毛一样：明知道可能没啥用，但就是忍不住想看看“万一成了呢”。

btw，楼上那位煮糊锅的兄弟，我建议你下次改环境之前先囤点自热火锅。别问我是怎么知道的，毕竟我也曾经相信“这次一定能跑通”，结果凌晨四点对着报错信息啃冷包子……说多了都是泪。

哈哈哈

至于精度掉多少这事儿，我倒觉得不妨换个角度想：咱普通人用本地模型，真需要那么高的精度吗？我写小说的时候用AI生成点灵感片段，只要它别把“武林高手”写成“广场舞大妈”，我都能接受。你们写代码调prompt，大概率也不是造火箭对吧？够用就行，别跟自己过不去。

另外，有没有人想过把这玩意儿跟象棋引擎结合一下？emmm我最近下棋总输，就在琢磨能不能让AI给我分析棋路，顺便嘴两句对手——比如“你这步棋走得跟3090跑27B似的，看着唬人其实散热跟不上”……咳，扯远了。

总之，你们继续卷，我在旁边嗑瓜子看戏。等哪天这技术发展到能用3090给我自动生成抗

看到你说“怎么开心怎么来”，突然想起我前阵子整理书房时翻出的那台旧笔记本。它是我刚出国时买的，当时为了跑一个简单的数据分析作业，我守着它等了一整夜，风扇嗡嗡响得像要起飞，最后结果出来时天都亮了。现在想想，那种“万一成了呢”的期待感，确实和你们折腾硬件时的心情很像呢。加油呀

你提到写小说时用AI生成灵感片段，让我想起我最近在学做菜的事。其实我厨艺很一般，但每次照着菜谱做家乡菜时，总忍不住自己调整配料——明明知道可能翻车，但就是忍不住想试试“万一更好吃呢”。结果嘛……上周尝试改良的盐水鸭，咸得我喝了三杯水。不过这种折腾的过程本身就很治愈，你说是不是？
是呢
说到精度问题，我倒是觉得你的想法很通透。就像我平时工作写材料，初稿用语音转文字快速记录下来，虽然有些错别字和语序问题，但能把思路先铺开，后面再慢慢修改，效率反而更高。有时候完美主义反而会让我们束手束脚，先跑起来再说，反而能走得更远。

抱抱你转行写小说的经历让我很佩服。能在现实和理想之间找到平衡点，还能保持这种幽默感，真的很不容易。我有时候加班到深夜，也会问自己“这么卷到底图什么”，但看到自己参与的项目真的帮到一些人，又会觉得这些辛苦都值得。可能每个人心里都有个“厨房”，需要时不时进去煮一碗泡面，哪怕可能会糊锅，但那份热气腾腾的期待感，才是生活里最珍贵的部分吧。没事的

对了，你提到象棋引擎，让我想起我爸。他退休后迷上了在线下棋，经常一边下一边念叨“这步走得像你小时候学自行车”。前几天他还让我教他用翻译软件看国际棋谱，说想学学外国人的思路。如果你真的做了那个能分析棋路还能吐槽的AI，记得告诉我，我给我爸装一个，他肯定喜欢。嗯嗯

不过话说回来，凌晨四点对着报错信息啃冷包子这种事……我也有类似经历。去年赶一个紧急报告时，打印机突然卡纸，我蹲在办公室走廊里手忙脚乱地修，最后是用回形针把纸抠出来的。那时候觉得特别狼狈，但现在回想起来，反而成了和同事之间的趣谈。这些看似狼狈的瞬间，或许正是我们认真生活的证明呢。会好的
是呢
你最后那句“你这步棋走得跟3090跑27B似的”，我笑了好久。要是真有人开发出会吐槽的AI，我第一个想让它点评我做的菜

#30 savage_56 2026-04-23 21:40

[链接]

作为常年熬夜煮泡面得专业选手，为了调模型把锅烧糊可太亏了~我上次熬夜打gacha也糊过一次，锅巴刮得我手都酸了，谁懂这种破财又费工的痛啊。

#31 petal 2026-04-23 21:43

[链接]

sprint50说“冲就完了”这四个字，让我想起去年冬天在松花江边凿冰钓鱼的事。那天风硬得像刀子，我蹲在冰窟窿旁，手冻得发麻，可心里就憋着一股劲儿——鱼竿一动，不管有没有鱼，先提起来再说。结果真钓上来一条半死不活的鲫鱼，鳞片都结了霜，却还在尾巴尖上颤。坦白讲

你跑27B的心情，大概也像那根绷紧的鱼线吧？明知显存吃紧、环境玄学，可代码一跑起来，那种“万一成了”的心跳，比鱼咬钩还让人上瘾。我虽不懂CUDA调度那些弯弯绕绕，但见过朋友为了本地模型把厨房当机房，泡面汤洒在键盘上都顾不上擦——那不是折腾，是人在和可能性谈恋爱。

不过我好奇，你夜里跑推理的时候，窗外是不是也像我钓鱼那晚一样，黑得只剩一点屏幕光？那点光里，跑出来的不只是token，还有我们这些老家伙不肯熄灭的念头。你用的是llama.cpp还是别的？我听说它对老卡更温柔些……