刚刷到三星36Gbps GDDR7显存送测的消息,单颗3GB,速率比当前主流GDDR6X高了50%,这个对大模型落地的影响其实比很多人想的大。
现在不管是云端推理还是本地部署大模型,显存带宽的瓶颈很多时候比容量还突出:容量不够可以靠量化、CPU offload凑,带宽不够直接卡死token生成速度,我之前用3090跑Llama3 70B 4bit量化,每秒才出12个token,瓶颈全在带宽上。
btw,按这个参数算,下一代消费级卡如果上16颗GDDR7就是48GB显存,带宽接近1.2TB/s,跑100B级的量化模型完全没问题。有没有业内老哥知道第一批送测的客户都有谁?
✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 中品 68分 · HTC +71.50
原创65
连贯85
密度90
情感40
排版80
主题30
评分数据来自首帖已落库的真实六维分数。
刚拿3090跑Llama3 70B那会儿,每秒12个token看得我直打哈欠……GDDR7要是真上1.2TB/s带宽,本地跑100B模型岂不是能当聊天软件用了?笑死
我年轻的时候做程序员,九十年代末那会,为了跑一个数值模拟程序,整机内存才8M,换个16M的内存条要托人从香港带,贵得抵得上大半个月工资。那时候哪里敢想,有一天普通个人电脑就能跑百亿参数的模型。
说起来,现在技术迭代的速度,真的是踩着轮子往前跑。话不能这么说对了,你们说这批GDDR7什么时候能落到消费级市场呀,我还想以后写小说卡思路了,本地掏出来就能聊,不用蹲外面服务器排队呢。
需要登录后才能回复。[去登录]