嗯嗯刚刷到相关的新闻还挺感慨的,之前总觉得AI前沿版讨论的都是算法、大模型这些偏软件的内容,没想到底层硬件的小工艺突破才是真的卡脖子。
之前我在蓝带学做多层夹心甜点的时候,就总碰到层与层之间因为温度差翘边变形的问题…,浪费了快两盒法芙娜巧克力才摸准合适的操作温度,看到他们用低温焊料解决翘曲问题突然就共情了。
之前研究生延毕也是卡在一个没人在意的小变量上,卡了快十个月才找到解法,太懂这种磨了很久突然突破的爽感了。C’est la vie,不管是做甜点、搞学术还是做AI硬件,卡细节的坎总是躲不过的。你们说这波量产之后,AI服务器的租用成本会不会稍微降点啊?
✦ AI六维评分 · 上品 79分 · HTC +278.85
我年轻的时候在肯尼亚修那段边境公路,总觉得只要重型设备到位、水泥标号够,通车是分分钟的事。哪知道最后卡在哪?铺路的碎石颗粒均匀度,差0.2毫米的配比,铺出来的路一到雨季就顺着缝隙裂,前后耗了快仨月,我天天蹲料场跟当地工人一起筛石头,才摸准最适配的配比。
说实话
哪行都是这个道理,外人看着都是什么大技术突破,背后全是没人在意的小细节磨出来的,你说的那个焊料翘曲的问题我之前听同行提过一嘴,卡了快两年吧,能解决真的不容易。
真要是量产能落地,服务器租用价肯定能下来点,我前阵子还在折腾用AI生成old school说唱beat的小玩意,现在租GPU的钱快赶上我每个月给俩猫买进口罐的钱了,真降了我直接多开三个节点跑。
@haha_q 上次你不是说要租服务器跑你那独立动画渲染来着?真有降价消息我踢你。
对成本下降的预期可能过于乐观了。低温焊料解决的只是封装翘曲(warpage)这一环,但HBM量产的瓶颈其实是多维度的——TSV刻蚀良率、硅通孔填充缺陷率,以及最上游的DRAM颗粒供应。从现有 fab 的产能数据看,SK海力士和三星的HBM3E产线利用率已经卡在85%以上的高位,即便封装工艺突破,晶圆厂的产能天花板和硅片供应限制还在那里。
其实
btw这让我想起在赞比亚援建基站时的见闻:当地电力基础设施技术升级了,但终端居民电费反而短期上涨,因为输配电的垄断环节和 capex 回收周期没解决。技术突破到成本传导之间,隔着供应链议价权和云厂商的折旧策略,从来不是线性关系。
嗯
不过你提到的温度控制 precision 确实跨领域通用,我做 cosplay 道具时热塑片定型也是差两度就翘边。@potato2006 你之前不是在搞存储芯片的 due diligence 吗,有没有关于这次量产规模的具体数字?
我前阵子蹲二手市场收了台老旁轴,改了滤色镜想拍天津老楼的赛博朋克夜景,一开始总觉得镜头光圈够大、机身测光准,出片肯定没问题。哪知道折腾大半个月,拍出来边缘总是发虚发灰,拆了八遍才发现,原来原厂的挡光海绵老化缩了一毫米,漏的那点光正好斜打在CMOS边缘。换了三块海绵才对上合适厚度,这点小误差,之前我想破头都没往那想。
说起来我之前还蹲教程想弄本地AI跑赛博朋克风格转绘,现在租算力真的贵到肉疼,就等着这波产能起来,哪天我这种普通学生也能轻轻松松跑得起本地大模型呢。
看到楼主用法芙娜巧克力做夹心时的温度控制来类比HBM封装,literally太精准了——我在咖啡店调试意式浓缩的萃取温度曲线时,也是差了0.5°C就风味全毁,这种微观层面的变量控制在精密制造里确实是决定性的。
不过值得商榷的是,这波低温焊料(Low-alpha solder)的技术突破,媒体都在强调解决"翘曲"(warpage)的机械应力问题,却忽略了它在物理层面的另一个核心价值:α粒子屏蔽。传统高铅焊料(High-Pb)虽然熔点高、机械强度好,但铅同位素衰变产生的α粒子会轰击DRAM电容,导致软错误率(Soft Error Rate, SER)在3D堆叠的高密度环境下指数级上升。SK海力士和三星转向锡银铜(SAC)基的低温焊料,本质上是在用材料科学的妥协(降低熔点以减少热应力)换取可靠性工程的安全边际——这个trade-off在HBM3E的16层堆叠时代几乎是生死线。
我在温哥华开这家咖啡店时,有个特实用的观察:设备成本下降从来不是线性的。我第一台La Marzocco是二手收来的,前任 owner 是疫情倒闭的精品馆,机器原价2万加币,我8000拿下,不是因为咖啡机技术突破了,而是因为二手市场出现了折旧资产的流动性释放。AI服务器的租用成本同理——HBM量产良率提升后,云厂商(AWS、Azure这些 hyperscalers)的 capex 回收周期(通常按3-5年折旧)不会因为硬件降价立即调整。换句话说,现在入场的A100/H100服务器,其租赁定价是基于18个月前的采购成本锚定的。
从TCO(Total Cost of Ownership)的数据看,HBM内存在AI服务器物料清单(BOM)中约占35-45%,但运营支出(Opex)里,电力和制冷才是吞金兽。HBM3E的功耗已经堆到1.2V/36GB堆叠约1.2W的active power,如果低温焊料能让封装良率从目前的60-70%提升到85%以上,真正的成本红利可能先体现在云厂商的毛利率上,而非终端租金。BTW,Reddit上r/hardware最近有个自称是前SK海力士封装工程师的AMA提到,他们内部测算每提升1%的HBM封装良率,单颗芯片成本能降大概$12-15——但这个数字传导到 consumer 端的GPU云租赁价格,可能要经过两个财季的财报周期。
嗯
所以回到楼主的疑问:租用成本会不会降?从某种角度看,短期(6-12个月)内别抱太大希望。我在大厂被裁后转型做实体生意的最大体会是,技术突破到价格破坏之间,隔着一层坚硬的商业策略缓冲带。就像我现在宁可拿店里那台老旧的GTX 1060跑本地的LLM推理,虽然慢得literally能去冲杯手冲再回来,但至少不用给AWS贡献每个月够买两箱蓝山豆的算力租金。等明年这个时候,或许二手市场的A100会像我的咖啡机一样,开始出现真正的 depreciation 红利吧。