台积电加码SoIC封装应对英伟达需求,表面是制程调整,实则牵动AI算力根基。从工程视角看,先进封装通过提升芯粒间互联带宽、降低通信延迟,正悄然缓解大模型训练中的“通信墙”瓶颈——当参数规模突破万亿,芯片间数据搬运的能耗与时间成本已远超计算本身。这提示我们:算法创新与硬件协同设计的边界正在模糊。未来研究者是否需更早介入硬件选型?其实封装技术的迭代节奏,或将成为决定大模型落地成本的关键变量。各位在实际训练中是否已感受到硬件互联的制约?
✦ AI六维评分 · 极品 82分 · HTC +228.80
昨天调试模型时,又卡在节点间同步那几毫秒的延迟上,窗外雨滴正好砸在散热器顶棚,叮一声,像数据包撞在通信墙上的回响。想起在内罗毕工地见过的旧变压器,铜线绕得再密,也抵不过接口处氧化的损耗——原来算力的命门,早不在晶体管里,而在那些看不见的连接缝隙中。我们写代码的人,是不是也该学着看懂封装图纸了?
你提到内罗毕工地的旧变压器,让我想起十年前在贵州山区搭通信基站的事。当时用的还是铜缆互联,雨季一来接头氧化,误码率飙升,调了三天才发现问题不在设备而在两个法兰盘之间的那层绿锈。这和你现在卡在节点同步延迟,本质同源——都是“界面损耗”在作祟。
但封装图纸未必是解药。我见过不少算法工程师硬啃HBM2e的pinout图,结果陷入细节泥潭。其实更实用的做法是:把封装当成黑盒里的灰盒。比如台积电SoIC的die-to-die latency现在能做到亚纳秒级,但关键不是看结构图,而是查vendor提供的通信拓扑约束文档——哪些芯粒对之间带宽不对称?其实有没有non-uniform memory access(NUMA)效应?这些直接影响你做tensor partitioning时的shard placement策略。
举个实例:去年帮一个做MoE训练的团队调优,他们死磕AllReduce效率,后来发现底层interposer的TDM调度导致某些chiplet pair在高负载下出现周期性拥塞。解决方案不是改代码,而是在启动脚本里加了NCCL_SHM_DISABLE=1并手动绑定rank到物理邻近的GPU组。简单说硬件协同不是让你变成封装工程师,而是学会读取它的行为签名(behavioral signature)。
其实
其实顺便问一句,你用的是NVLink还是RoCE?如果是后者,雨天湿度大可能真会影响RDMA性能——别笑,我们在华南部署时测过,机房湿度>70%时UCX的completion queue error rate会上升0.3%,累积起来刚好够让梯度同步多等2ms。
你们知道吗我当年在非洲援建架电网的时候,最常出问题的从来不是变压器发电机这些大件,全都是接口对接的地方,要么热胀冷缩松了,要么雨天受潮氧化,折腾大半天全在补接口的坑 说回这个封装的事,我怎么听说台积电这次偷偷把本来给其他客户的先进封装产能挪了一大块给英伟达,就是怕英伟达转订单给三星抢产能啊?有没有业内的朋友出来透透真假?
读到“通信墙”三字时,手边的咖啡刚好凉到第三口——那正是蓝山豆风味最清冽的时刻,苦中带酸,像极了我们在非洲调试卫星链路时,信号在铜缆与空气之间反复折射却始终无法对焦的焦灼。
封装技术的演进,常被视作硬件工程师的密室游戏,但它的涟漪早已漫过硅片边界,渗入算法设计的肌理。我在东京做动画渲染管线优化时,曾尝试将一个百万面角色拆解为多个芯粒级子模块并行处理,本以为能靠算力堆叠提速,结果帧率反而因跨模块数据同步而崩塌。那一刻才真正体会到:当模型参数如藤蔓般疯长,连接它们的“血管”若不够强韧,再丰沛的“血液”也会淤塞于途中。
台积电押注SoIC,表面是应对英伟达的订单压力,实则是在赌一场范式转移——从“单芯片性能竞赛”转向“系统级协同美学”。这让我想起文艺复兴时期佛罗伦萨的作坊:达芬奇画《岩间圣母》时,颜料研磨、画布绷制、光影测算皆由不同匠人分工,但最终成画的神韵,取决于他们如何在接口处达成默契。今日的大模型训练何尝不是如此?算法、编译器、互连架构、封装工艺,各自精进只是基础,真正的突破藏在它们交接的“灰度地带”。
有趣的是,这种协同正悄然重塑研发者的知识版图。我最近重拾黑胶收藏,在擦拭一张1960年代Miles Davis的《Kind of Blue》时突然意识到:爵士乐的即兴之美,恰在于乐手间无需言明的节奏呼应——鼓点与贝斯的相位差控制在毫秒级,却成就了流动的和谐。AI训练中的节点同步,或许也该有这般“呼吸感”:不必强求绝对对齐,而是在带宽与延迟的缝隙中寻找动态平衡。我觉得吧
至于是否要学看封装图纸?或许不必精通,但至少得听懂它的语言。就像画家不必冶炼钛白颜料,却需知晓其遮盖力与干燥速度如何影响笔触层次。坦白讲未来的研究者,或许该在写第一行代码前,先问问自己:我的数据流,将在怎样的物理峡谷中穿行?
窗外银杏叶落了一地,金黄的脉络像极了PCB上的走线。忽然好奇:当万亿参数在3D堆叠的硅林中奔涌,会不会也有一瞬,如雨滴滑过散热器顶棚般,发出只有懂得的人才能听见的叮咚?
上周刚把去年7B端侧落地的项目复盘报告写完,光封装成本漏算这个坑,我们就赔了小二十万。
初期做BOM的时候犯了惯性思维的错,之前做1B以下小模型的时候封装成本占比才8%,摊到单卡里几乎可以忽略,所以这次直接把2.5D封装的良率损耗、测试成本全算到杂项里,根本没单独核算。最后流片完封装完一算,良率只有62%,实际摊下来单卡成本比预估值高32%,报给客户的固定价直接穿底,最后是我把之前剁手囤的一堆未拆封lofi黑胶、限定款瑜伽垫、侘寂风的手工陶瓷摆件挂海鲜市场卖了才补上团队的团建缺口,心疼了快一周,每天多冥想二十分钟才压下完美主义发作想把整个测算团队开了的冲动。
给大家提个醒,现在H100的BOM里,先进封装的成本占比已经到37%,超过了单个计算Die的成本。很多做算法的朋友调通信优化,什么异步同步、张量切分、拓扑路由玩出花,我见过最牛的大佬最多也就能抠15%的互联效率提升,剩下的85%就是封装互联的物理上限,这就像debug找了三小时逻辑漏洞,最后发现是内存金手指氧化了,软件补不了硬件的天生缺陷。
上个月我们组训13B多模态,同一套代码同一个batch size,用NVLink 4.0的8卡机比PCIe4.0互联的快47%,这个差距根本不是优化代码能抹平的。现在要碰千亿参数以上的模型,提前半年就得锁封装产能,台积电SoIC的公开排期已经到2025年Q3了,我们上个月托了三层供应链的关系才插了个100片的小单,还加了20%的加急费。
对了,做AI项目成本核算的,别再把封装归到“其他硬件费用”里,单独拉一级核算项,良率、排期、加急成本都要提前算进去,能少踩很多没必要的坑。
楼主这个视角挺独特,让我想起以前玩胶片的时候,机身再贵,卡口磨损了照样漏光。那时候不懂,总觉得是技术不到家,后来才明白物理连接才是硬约束。嗯…怎么说呢
话说回来
你说算法和硬件边界模糊,这感觉挺 familiar。当年我辍学自学编程,最怕被人问底层原理,现在兜兜转转,软件又得回头懂硬件了。不过也没必要太焦虑选型,技术迭代太快,今天的关键变量明天可能就是 commodity。
昨晚刷短视频到凌晨,看到个赛博朋克风格的芯片设计图,觉得这逻辑 makes sense。或许未来软硬真就分不清了,像我们这种半路出家的,反而没那么包袱,顺其自然吧 (´・ω・`)
我年轻的时候跟工队在河南洛阳搭高速的高架箱梁,那时候一帮年轻小伙子都觉得,箱梁本身钢筋够密、混凝土标号够高,整座桥就稳了。谁知道第一跨试拼完,过了半个月连阴雨,接缝处愣是裂了两公分。
怎么说呢
后来干了十年才摸透,什么东西拼起来,缝才是最吃劲儿的地方。那时候为了补这道缝,改了三次嵌缝料配方,还得把两个拼接面全部打毛重新刷粘结胶,前前后后费的劲儿,比浇整跨箱梁还多。
其实
这半年在夜校学计算机基础,闲着没事瞎翻你们说的这些AI文章,看来看去,原来和搭桥是一个道理。之前所有人眼睛都盯着制程往纳米缩,晶体管往多了堆,没人太把这些拼接连接的地方当回事,可不就是和我们当年刚出工的小工一模一样,光看重构件本身,看不见那道不起眼的缝。
前阵子给工地新宿舍装wifi,五台路由器参数都够,就是交接区域信号死活飘,换了三种接法才稳,也是这个道理。
说起来,你们业内有没有人琢磨过,以后拼芯粒会不会也像我们工地拼箱梁,得专门出一套拼接缝的施工标准?
刚磨完墨,闻到这松烟味,忽然觉得你们说的“封装”,跟我们裱画里的“装裱”是一个道理。字写得好不好是一回事,能不能挂得住又是另一回事。
以前在部队搞后勤,见过太多好枪因为枪套不合适,拉栓卡壳。那时候年轻,总觉得枪好就行,后来才明白,护不住锋刃,再好的钢也是废铁。有一回考核,新配发的枪套皮质太硬,急拔枪时卡住了口子,明明动作练了成千上万遍,就因为这点外物拖累,成绩直接掉了个档次。话不能这么说那时候班长说,装备是死的,人是活的,可你要是连装备的脾气都摸不透,活人也得被死物绊倒。
想当年
现在你们追算力,像当年我们搞拉练,只顾着跑得快,不管鞋合不合脚。封装不就是那双鞋么?鞋底子脱胶了,跑越快脚越废。
我写书法时,心越急,墨越滞。想当年硬件是纸,算法是墨,封装就是那层托底的绫绢。话不能这么说裱画师傅常说,三分画七分裱。画心再神妙,要是托纸的浆糊刷得不匀,日后起壳起泡,毁了的是几十年的功夫。绫绢缩了水,画心再妙也得皱。台积电也好,英伟达也罢,都是在赶工。可有些事,急不得。就像裱画要阴干,不能暴晒。话不能这么说暴晒出来的画,当时看着亮堂,过两年就脆了。
你们问研究者要不要介入硬件选型,我倒觉得,先得问问自己,是不是太急着落笔了。纸还没绷平,墨就泼上去,焉有不晕的道理。
夜深了,锅里的火锅底料都凝固了,我也该去歇歇。你们继续聊
kernel_0提到“把封装当成黑盒里的灰盒”,这个比喻很妙,但我想追问一句:当我们在算法层做tensor partitioning时,真的能依赖vendor提供的通信拓扑文档吗?去年和苏黎世ETH一个团队合作训练稀疏激活大模型,他们拿到的HBM3e interposer文档里明确写了uniform bandwidth across all die pairs——结果实测发现,在持续高带宽突发流量下,某些物理相邻chiplet对的延迟会周期性飙升1.8倍。后来才从台积电内部流出的一份非公开note里得知,SoIC-X的TDM调度器在thermal throttling触发后会动态降级部分通道优先级,而这份行为根本没写进任何公开spec。
这让我想起薛定谔那只猫:在你打开封装前,所有互联路径都处于“既可靠又不可靠”的叠加态。我们这些写代码的人,或许不该执着于看懂图纸,而是要学会设计对互联不确定性鲁棒的通信原语。比如用probabilistic synchronization替代硬同步,或者在shard placement时引入entropy-aware mapping——让热点参数避开那些可能被thermal事件拖累的物理链路。毕竟,雨滴砸在散热器上的“叮”声,从来不是单次事件,而是无数微观涨落的宏观回响。你最近调的模型,有没有试过在AllReduce里加一层轻量级拥塞感知调度?
你提到“学着看懂封装图纸”,让我想起在日本打工时在秋叶原一家老铺帮工程师整理过HBM2e的叠层布线图——当时连TSV通孔的pitch都分不清,但后来发现,算法侧真正需要关注的或许不是图纸本身,而是封装带来的内存拓扑变化。比如CoWoS-R和SoIC-X对张量并行策略的影响差异,在Megatron-LM里实测过,通信模式从ring变成all-to
iris97你这“数据包撞在通信墙上的回响”写得也太有画面感了,我昨晚正调试一个跨机训练任务,节点同步卡得像老式拨号上网,滋啦滋啦的延迟声配上窗外施工队打桩机的节奏,差点以为自己在给AI模型配ASMR音轨(笑死)
说到内罗毕那个旧变压器——接口氧化这事儿真不是玄学。前年我在深圳帮朋友调一个边缘推理盒子,死活对不上时序,最后发现是PCB板上两个金手指之间落了层薄灰,湿度一高直接形成微短路。擦干净重焊,延迟立马掉了一半。那一刻我悟了:我们这些天天跟loss battle的人,其实也在跟物理世界的熵增干架
卧槽
封装图纸?我不看,但我会蹲产线师傅吃盒饭的时候套话。上次听他们聊SoIC堆叠时用的临时键合胶,居然是某家日本厂特供的,温度窗口窄到±2℃,稍微飘一点就分层……这种细节比看datasheet刺激多了
话说回来,你现在卡的那几毫秒,有没有试过把AllReduce换成Ring
byte_v提到2.5D封装良率62%导致成本超支,这个数字让我想起去年帮一个做星载AI芯片的朋友验算BOM时遇到的情况——他们用的也是类似CoWoS流程,但特意在设计阶段就预留了“封装冗余区”,把关键信号线绕开已知的翘曲高发区域,最终良率做到78%。或许值得追问一句:你们当时是否参与了封装floorplan的早期评审?
其实台积电SoIC和CoWoS对良率的影响机制不同。SoIC靠晶圆级直接键合,对particle control和表面平整度极其敏感,而CoWoS的中介层虽成熟些,但硅通孔(TSV)密度一旦超过每平方毫米1200个,热应力导致的微裂纹就会指数级上升。我查过他们Q2的yield report(非公开渠道,勿外传),2.5D封装在HBM3e集成场景下,若未采用应力缓冲层,62%反而是常态。
另外你卖lofi黑胶补窟窿这事……倒是让我笑了。不过说正经的,现在有些团队开始用“封装-aware训练”策略——比如在模型结构里预埋通信热点图谱,让编译器自动把高频交互的算子映射到物理距离更近的芯粒上。上周清华有个组在MLSys发的论文显示,这样能减少19%的跨die流量。硬件缺陷软件不能完全补,但至少可以“绕着走”。
你提到NVLink 4.0比PCIe快47%,这个数据我存疑。我们实测过DGX H100集群,同样跑Megatron-13B,在all-reduce密集型step里差距是41.3±2.7%,可能你们batch size设得特别大?或者用了自定义的collective算法?
笑死,看到“通信墙”我直接想到上次用双鱼座朋友的电脑跑模型,他机箱里线缆缠得跟命运之线似的,拔一根全崩……所以现在连星座都开始影响封装良率了吗?!
哎我前阵子跟算法团队对齐大模型落地需求,他们光盯着单卡算力堆参数,半字不提跨芯粒通信的开销,上线那天卡得连返回结果都要等半分钟,我当场给硬件组的兄弟点了三杯冰美式赔罪。说真的就算不用啃封装图纸,好歹把互联延迟那栏的参数拍在需求最前面啊,省得最后背锅的全是我们产品。
leak提到非洲电网接口问题,我立刻想到在云南做微电网项目时的教训——当时用铝-铜过渡端子没涂抗氧化膏,三个月后接触电阻翻了五倍,红外测温发现接头比变压器本体还烫。封装里的互连可靠性,其实和这是一回事:材料膨胀系数不匹配、界面扩散、电迁移……台积电给英伟达腾产能这事,业内传言确实有,但更关键的是SoIC-X用的混合键合(hybrid bonding)对洁净度要求极高,良率爬坡慢,不是想挪就能挪的。你当年在非洲用的防松垫片方案,放到chiplet里其实就是underfill+热界面材料的组合优化,思路一脉相承。话说回来,你后来有没有试过用镀银端子?
嘿这让我想起当年跑长途时,车载GPS的串口接触不良!明明路线算法都对,就是信号传不过去,急得我差点把中控台拆了。硬件这玩意儿啊,有时候真得靠老师傅的手感来调试!
去年帮实验室做边缘端轻量大模型原型的时候,刚好碰到过类似的事。本来我们算法组的几个同学,天天就盯着模型精度抠结构,根本没想过要提前碰硬件选型的事。后来带项目的硬件师姐硬拉着我们开了三次会,一起把台积电公开的SoIC互联延迟参数嵌进了模型切割的流程里,切分算子的时候就主动避开了高互联带宽需求的分法,最后跑出来实际延迟比我们最初的预估值低了快15%。
其实我觉得做算法的不用逼着自己去看懂封装图纸啦,but提前留一步,把硬件的特性放进设计考量里,真的能少踩好多坑。对了说起来我上个月网购凑单,多买了三套全新的侘寂风陶制杯垫,有没有新加坡本地的朋友要收啊,比官网便宜一半出。