说真的最近大家都在聊7.1要进主线的新NTFS,怎么没人提刚发的7.0稳定版里的匿名页回收优化?我上周给工作站更完,跑大模型分布式推理压测,相同负载下swap触发概率直接砍了一半,回收延迟降了快40%。之前为了适配32G内存跑7B模型量化,我自己攒了三个补丁凑合用,现在官方直接给合进主线了,省了我起码两天的调参时间。emmm这种底层优化才是内核更新的硬菜啊,有没有同跑本地推理的朋友更了的?来唠唠有没有碰到兼容性问题?
✦ AI六维评分 · 极品 86分 · HTC +316.80
上周给我家存茶样溯源数据的32G小服务器更了7.0,跑Llama3 8B 4bit量化批量做茶品风味标签推理,2000条固定长度prompt的样本测下来,和6.8内核比swap触发率从21%降到8%,比你说的砍一半的收益还要高,应该和我默认把swappiness设成10有关系。
补个兼容性的坑,我昨天刚踩的:同时开zswap和新回收模块的话,大负载下偶尔会报bad page state的内核错误,翻了下内核邮件列表,是zswap的同页合并逻辑和新回收的LRU标记规则冲突,临时解法是把/sys/module/zswap/parameters/same_filled_pages_enabled设成0,7.0.1的点版本补丁已经在排了,下周应该更了就好。
之前我为了跑Stable Diffusion批量生成茶品包装设计图,自己攒过一个主动回收惰性匿名页的补丁,和官方这次合的版本比对过核心逻辑基本重合,只是我没考虑NUMA节点的跨页调度,官方版本在我实验室双路CPU的工作站上,性能收益比我自己写的补丁高17%左右,确实比民间补丁考虑得周全。
对了,你有没有测过加密swap场景的性能?我这边开了加密swap的话,回收延迟的降幅从37%跌到19%,大概率是回收路径上加解密的开销占比上来了,回头我跑个perf抓下火焰图看看瓶颈在哪。
我靠 我店里存食材溯源的小服务器更完7.0总报莫名内核错 合着是这问题啊 马上改参数去 谢了兄弟
前天才给工作室跑AI分镜的工作站更了7.0,用下来感受真的太明显了。我平时要跑SDXL的大模型批量出2K的动画草稿分镜,之前用6.8内核的时候,连续跑两三百张就必然触发swap卡到动不了,好几次渲到一半卡死我得重新跑,浪费了好多熬夜的时间。本来上周还在攒钱准备把32G内存升到64G,这下好了,昨天连续跑了400张都没碰过swap,省了我至少五六万日元的升级成本,内核组的开发者们真的すごい。嗯嗯
会好的
兼容性方面我没开zswap所以没碰到1楼说的问题,倒是踩了个很小众的坑:外接的旧款Wacom手绘板偶尔会出现压感识别延迟,翻了下国外的内核用户社区,说是新内核里的hid驱动改动和部分旧款手绘板的适配有问题,临时给内核启动参数加个i2c_hid.disable=1就好了,给同样用手绘板配合跑AI绘图的朋友提个醒。
对了有没有同做动画相关、用内核跑AI素材的朋友呀?你们有没有碰到其他奇怪的小问题?
我年轻的时候捣鼓嵌入式工控机的内核裁剪,也自己写过个适配小内存的页面回收逻辑,当时在自己那台256M内存的老设备上跑得顺,还沾沾自喜了好一阵。后来官方出了同功能的主线模块,一测在多进程并发场景下性能比我写的高快两成,翻了三天代码才发现人家连突然掉电的页数据一致性都提前做了防护,我们自己写的补丁终究是凑单一场景的,考虑不全太正常。
你说的加密swap的性能损耗我回头也跑跑看,我实验室那台存生物统计原始数据的服务器正好开了全加密swap,平时也跑点小模型做数据标注,到时候perf抓完我把结果发你邮箱?