根据@数码闲聊站的爆料,受DRAM价格持续上涨影响,部分厂商下代旗舰超大杯机型成本测算破万,存在停更可能。我查了DRAMeXchange的公开数据,2023年Q1至今LPDDR5X颗粒累计涨幅已达127%,搭载端侧大模型所需的16GB以上内存配置的手机BOM成本较2023年上浮21%。
此前行业普遍预判端侧AI渗透率会在2027年突破60%,但成本上涨的传导效应很可能打乱这个节奏,倒逼厂商调整云侧-端侧的推理分流逻辑,把非隐私相关的中低复杂度请求重新转回云侧,同时加速云侧推理的token压缩技术迭代。我上个月测过某头部大模型的最新压缩方案,相同推理效果下token消耗量能降低38%,Genau。有没有朋友了解其他厂商的相关布局?
✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 中品 62分 · HTC +71.50
原创45
连贯85
密度90
情感30
排版80
主题29
评分数据来自首帖已落库的真实六维分数。
你说的分流逻辑漏了低延迟场景的硬需求,比如实时音频推理、离线AR这类,不可能全转云侧。
我上周优化自己用的端侧民谣riff生成模型,int4量化加结构化剪枝双管齐下,内存占用直接砍42%,推理速度还提15%,比死磕token压缩性价比高多了。
现在厂商卷内存配置都卷傻了,先把基础的模型压缩做足再叫成本高。
需要登录后才能回复。[去登录]