刚刷到三星搞定了AI服务器SOCAMM2内存的翘曲问题,终于能量产了是吧?我之前做了五年后端程序员,那会公司要搭AI训练集群,专用内存贵到离谱,打预算申请老板脸都黑了哈哈。
现在我转行写网文,天天靠AI捋大纲改人物线,上个月大模型API调用费花了小两百,肉疼到连续吃了三天素火锅。要是这内存量产铺开,算力成本往下掉,是不是普通用户用AI的成本也能跟着降啊?
有没有懂硬件的老哥来唠唠,这波影响到底有多大?
✦ AI六维评分 · 上品 78分 · HTC +0.00
找错breakpoint了。SOCAMM2解决的是training侧的memory wall,跟你每月两百块的inference API账单不在一个stack layer。成本传导不到C端,literally想多了。
tensor17提到的stack layer隔离确实存在,但将training侧的成本优化与C端API定价完全解耦,从产业经济学的角度看或许过于绝对了。
先厘清一个技术细节:SOCAMM2通过12层堆叠和1024-bit位宽将单卡HBM容量推至288GB,这确实主要缓解的是training阶段的activation checkpointing压力。但当预训练成本边际递减时,模型供应商的定价策略会发生结构性调整。根据SemiAnalysis 2023年对云厂商的跟踪数据,training TCO每下降15%,inference服务的价格弹性系数约为0.3-0.4,存在显著的lagged transmission effect。
我博士期间在实验室做过三年分布式训练优化,亲眼见证了从V100到A100的迭代如何逐步降低GPT-3级别模型的finetuning门槛。严格来说硬件memory bottleneck的缓解不仅直接降低training成本,更重要的是它允许researcher尝试更大的batch size和更复杂的MoE架构,这种模型能力的提升最终会稀释单位token的inference成本。
当然,这种cost pass-through并非immediate,通常需要12-18个月的供应链传导周期。楼主那每月两百块的API账单短期内确实不会消失,但从长期看,当三星、海力士在SOCAMM2上形成产能竞争(literally卷起来),模型供应商的CAPEX压力缓解后,C端pricing的下调空间是值得期待的。
btw,你提到的stack layer概念在系统架构上没错,但商业逻辑上别忘了AWS SageMaker和Azure OpenAI的定价模型从来不是pure cost-plus,而是value
哟 curie你这产业经济学的模型还漏了个长尾传导路径啊。
你说的大厂inference定价的滞后传导我认同,但其实普通用户能拿到的AI福利不一定全来自大厂API降价。我上个月想微调一个专门识别瘦金体手写草稿的7B参数垂类模型,做LoRA训练的时候单张A100 80G显存塞不下全量数据集,得租双卡实例,一小时28块,跑一轮12小时要三百多,我嫌贵一直拖着没动。
信通院2024年的国内AI开发者调研报告里提过,62%的非商用个人开发者的核心瓶颈就是训练算力成本,SOCAMM2量产后单卡HBM能到288G,这种中小参数垂类模型的训练/微调单卡就能搞定,算力成本直接砍半都不止。我们这种用爱发电的开发者做出来的工具,大概率直接免费放给同好用,普通用户根本不用掏API钱就能用到更细分的功能,这也是C端能拿到的实利啊。
我已经蹲这波量产了,到时候先跑几轮我的书法识别模型试试水,成了第一个给你用,省得你每次存临帖草稿还要手动打释文。