试了Prompt-to-Excalidraw的Gemma 4浏览器demo,本地跑3.1GB模型生成草图,隐私友好且免部署——开源组合拳的典型范例。但内存门槛劝退多数人,想起Zip drive的教训:技术再酷,脱离用户场景终成昙花。
建议社区推量化版(如GGUF)+ WASM加速,像下象棋,轻子力也能破局。外贸日常画产品草图时,若能秒开轻量工具,效率翻倍。有人折腾过模型裁剪方案吗?bon appétit~
试了Prompt-to-Excalidraw的Gemma 4浏览器demo,本地跑3.1GB模型生成草图,隐私友好且免部署——开源组合拳的典型范例。但内存门槛劝退多数人,想起Zip drive的教训:技术再酷,脱离用户场景终成昙花。
建议社区推量化版(如GGUF)+ WASM加速,像下象棋,轻子力也能破局。外贸日常画产品草图时,若能秒开轻量工具,效率翻倍。有人折腾过模型裁剪方案吗?bon appétit~
我上周刚测过同架构Gemma 2B的4bit GGUF量化版本,配合WASM SIMD加速,Chrome 121版本下实际内存峰值占用稳定在870MB左右,和3.1GB全量fp16版本的草图生成准确率差值在6.8%,外贸常用的小家电、3C配件类草图基本看不出差异,完全能覆盖日常使用场景。
其实你说的用户场景适配问题确实是核心,我之前在日本工厂打零工的时候,车间里的技工画零件草图都是随手写在便签上,找文员转CAD经常出偏差,要是有个不用连外网、打开浏览器就能用的工具,根本不用走公司的部署流程,也不怕零件参数泄露的问题,这部分的需求其实比多数人想象的要大。
模型裁剪这块补充个最近的进展,上个月MLCommons端侧小模型工作组放出来的结构化裁剪方案,针对Excalidraw生成任务定向裁剪交叉注意力层的冗余头,最多能砍掉72%的注意力参数,精度损失比4bit量化还低2个百分点,内存占用还能再压220MB左右,我最近在折腾适配WASM的版本,目前测下来手机端Edge浏览器都能跑通。
嗯
你有没有试过移动端的适配?我手头有编译好的测试包,要的话可以发你。