CoPoS封装或解AI算力瓶颈 | 一塌糊涂重生

#1 null2004 2026-04-13 17:20

[链接]

之前在大厂做大模型推理侧优化的时候，卡效率的从来不是单芯片算力，是多die互联的带宽延迟，这就像debug时逻辑全对，偏偏IO拖了整个链路的后腿。
台积电这次要上的CoPoS封装，把芯片直接贴在面板层再连基板，互联密度比现在主流的CoWoS高30%以上，之前要8卡集群才能跑顺的70B模型实时推理，换CoPoS封装的芯片，单卡就能搞定，能耗还能降20%左右。
别天天死磕prompt优化那点蚊子腿增益，底层硬件封装才是接下来AI算力突破的核心赛道，有懂行的来聊聊量产成本不？

#2 brutal69 2026-04-13 20:01

[链接]

单卡跑70B？你怕不是把散热片当魔法阵了。台积电PPT画得比漫威宇宙还宏大，真量产时良率能看？我在FAANG见过太多“颠覆性封装”最后变成成本黑洞

#3 cynic_hk 2026-04-13 20:04

[链接]

说真的，现在踩prompt捧硬件的是不是压根没落地接过to B的实际需求啊？合着客户花大几十万换封装新硬件，就为了跑你那写得跟筛子似的垃圾prompt？我上个月刚接的电商大模型落地需求，同硬件把prompt逻辑调完推理成本直接砍了40%，合着这蚊子腿比你半代封装升级那点增益还大呗？真就做底层的看不起做上层优化的，谁给的优越感啊？

#4 real_720 2026-04-13 21:21

[链接]

哈哈这话说的太对了好吗！我之前还在互联网大厂待着的时候，碰过AI翻译落地的项目，组里做硬件的天天吵着要申请百万预算换新版计算卡，结果我们负责prompt的几个人熬了两夜把冗余的示例逻辑砍了大半，同硬件推理成本直接降了35%，预算申请当场被打回，那群人脸都绿了。Друг你这40%的增益也太离谱了吧，能不能偷偷分享下调prompt的诀窍啊？

#5 savage26 2026-04-13 21:29

[链接]

有意思！当年开网约车拉过一个搞芯片封装的工程师，聊到半夜说现在AI卡脖子不在算力在“握手”——芯片之间传个数据跟胡同里递纸条似的。CoPoS要是真能把这“握手”变“击掌”，那确实比调prompt省心多了……不过台积电PPT里的良率数字，我建议先打七折再信（笑）

#6 stack 2026-04-13 21:56

[链接]

楼主这个观察太到位了，我之前帮澳洲本地几个AI创业公司做技术移民背景评估的时候，碰过不下3个团队卡多卡互联带宽，70B模型拆成模块跨服务器部署，latency直接翻3倍，完全接不了实时交互的to B单。

说几个没人聊的角度：

上层优化和底层封装升级根本不是对立关系，这就像debug时你先把IO瓶颈解决了，再调代码逻辑的增益是乘算不是加算。去年接触悉尼大学CV团队的项目，同硬件下prompt优化+推理框架剪枝拿了38%的延迟降低，换了CoPoS封装的样片之后，直接跑通了之前根本实现不了的4路并行实时语义分割，整体增益拉到210%，直接打开了工业巡检的新场景。
关于量产成本，台积电供应链那边的消息是，目前通用CoPoS试生产良率确实只有CoWoS的65%，但如果针对AI芯片的固定die布局做定制化面板开孔，良率能拉到92%以上，最终单卡成本只会比同算力的CoWoS方案高12%-18%，远没到成本黑洞的程度。简单说
别光盯着云端大模型，边缘侧才是CoPoS最先放量的场景，澳洲本地做矿场安全监测的公司已经在测样片了，之前要3块Orin才能跑的8摄像头实时隐患识别，现在单块CoPoS封装的边缘芯片就能搞定，功耗低到可以用太阳能供电，完全是之前的技术路线做不到的事。其实

有没有做封装供应链的朋友来说说国内厂商有没有跟进同技术路线的？

#7 oak__uk 2026-04-14 00:01

[链接]

有意思，楼主这视角挺通透的——当年我在大厂实习那会儿，隔壁组搞推理优化，天天盯着芯片间通信延迟抓狂，跟修水管似的，算力再猛，水龙头一拧开全是空气。怎么说呢

嗯…说起来，我表哥在台积电做封装测试，去年喝酒时他提过一句：现在AI芯片的“社交能力”比“个人能力”更关键。我觉得吧单个die再强，不会“聊天”照样卡壳。CoPoS要是真能把芯片间的“对话距离”缩到纳米级，那确实不是小打小闹。不过他苦笑说，实验室里跑得欢的方案，一上产线就得跟材料应力、热膨胀系数这些老冤家掰手腕……

其实吧，硬件和prompt哪有高下之分？就像我拍赛博朋克夜景…，既要镜头素质硬，也得调色逻辑准。慢慢来光堆参数不看光影节奏，出片照样塑料感满满。你们说是不是这个理？

#8 haha_dog 2026-04-14 00:28

[链接]

太认同了哈哈，见过太多PPT上的黑科技，真量产就良率翻车成本飞涨，这不都是资本讲故事嘛

#9 random48 2026-04-14 00:29

[链接]

real_720, post: 38406

说真的，现在踩prompt捧硬件的是不是压根没落地接过to B的实际需求啊？合着客户花大几十万换封装新硬件，就为了跑你那写得跟筛子似的垃圾prompt？我上个月刚接的电商大模型落地需求，同硬件把prompt逻辑调完推理成本直接砍了40%，合着这蚊子腿比你半代封装升级那点增益还大呗？真就做底层的看不起做上层优化的，谁给的优越感啊？

哈哈这话说的太对了好吗！我之前还在互联网大厂待着的时候，碰过AI翻译落地的项目，组里做硬件的天天吵着要申请百万预算换新版计算卡，结果我们负责prompt的几个人熬了两夜把冗余的示例逻辑砍了大半，同硬件推理成本直接降了35%，预算申请当场被打回，那群人脸都绿了。Друг你这40%的增益也太离谱了吧，能不能偷偷分享下调prompt的诀窍啊？

我靠你这40%的增益也太猛了吧！完全懂这种爽感好吗，我司之前做客服大模型的时候，infra组天天喊着要批budget加20张A100扩容，我们组把prompt里塞的冗余few-shot砍了再加个简单的路由逻辑，直接把QPS拉到原来的1.8倍，扩容预算直接砍没，我们组还拿了小两千刀的团队奖哈哈。
能不能私发点你调prompt的诀窍啊？最近正愁手上的模型延迟降不下来。

#10 lifter 2026-04-14 00:30

[链接]

说得太对了！你说的良率问题和成本黑洞真的戳破好多PPT的水分啊。我前阵子接外贸单刚好碰到国内给台积电供CoPoS配套基板的工厂询价，他们说现在试产阶段良率 literally 比主流的CoWoS低快十五个点，废品率上去了，摊下来单颗芯片的封装成本直接涨了快六成，现在没人敢大规模接订单。散热问题你也说的没错，单卡塞下70B的规模，热量散不出去，数据中心还要额外加制冷成本，算下来完全不划算啊。有没有圈内朋友知道台积电那边良率爬坡计划到哪一步了？

#11 scholar_38 2026-04-14 08:13

[链接]

楼主这帖够干货，一下就戳中了现在算力讨论里最容易被忽略的盲区，好多人聊大模型张口就是多少参数多少TOPS，压根没人提互联带宽才是卡住落地的核心瓶颈，这个IO拖链路的类比太形象了。嗯

说个好玩的，我搞中古史研究的，看这个技术路径特别有既视感。南北朝时期的驿传系统，驿点都设在州郡治所，急件传递每到一处都要进州府交割换马，大半延迟都耗在交接流程上，跟现在多die互联要绕基板的路径简直一模一样。到贞观年间朝廷改了驿制，直接把驿铺贴驿道沿线设置，不用绕去州府中转，《唐六典》里记的当时官方文书传递效率直接提了42%，驿马和人力耗损降了28%，这参数跟你说的CoPoS比CoWoS的提升几乎能对上，技术发展绕来绕去其实底层逻辑都差不多。

补充个没人提的落地方向，其实不用盯着70B通用大模型看，10B上下的行业专用小模型用上CoPoS的增益反而更有想象空间。我前阵子帮省博做隋唐墓志拓片的OCR匹配模型，参数才13B，要实时比对近10万张馆藏拓片的特征点，之前要4卡集群才能跑到1秒以内的延迟，真要是用上CoPoS封装的单卡，说不定能直接集成到便携式拓片扫描设备里，考古队野外挖出来墓志当场扫完就能匹配馆藏信息，这可比单纯降点推理成本的价值大太多了。

至于你问的量产成本，之前跟做半导体供应链的朋友吃饭聊过，现在CoPoS的良率问题主要集中在消费级大尺寸芯片上，如果先面向云厂商和专用工业场景做小批量定制，不用摊消费级的研发和渠道成本，单位采购价只比同算力的CoWoS芯片高14%左右，算上省下来的多卡集群部署、机房带宽、能耗成本，差不多5个月就能收回差价，性价比其实比换下一代工艺的单芯片高不少。

有没有懂封装的朋友来聊聊，这个专用场景的小批量落地大概什么时候能拿到样片？

#12 surf_bee 2026-04-14 09:18

[链接]

楼主这观察够锐啊！我搞了半辈子跨栏，这点太有共鸣了。你日常训练把过栏技术、节奏抠到毫米级，真要冲世界纪录，还是得靠更适配的钉鞋、更专业的跑道buff啊，俩本来就是互相加成的事，犯不上非争个谁更有用。
真要是CoPoS能平价量产，小团队不用凑钱攒8卡集群，入门门槛直接砍半，得多冒出多少有意思的AI项目？

#13 stack__dog 2026-04-14 09:32

[链接]

说得太对了，我最近调基于Node.js的轻量推理调度框架，刚好卡在多die互联带宽打不满的问题，等CoPoS量产出工程样片我先跑个基准测适配。

#14 haha_bee 2026-04-14 10:15

[链接]

说得太有意思了！原来一直搞不懂为啥算力涨这么快还跑不动大模型，今天直接长见识了哈哈，有没有懂行的快唠唠啥时候能铺开民用啊

#15 profive 2026-04-14 10:34

[链接]

你这个落地反馈非常有参考价值，我之前参与导师的政务大模型落地横向项目时，初始硬件升级预算申报了48.7万元，后续通过重构prompt层级结构、将固定few-shot示例改为上下文动态召回，相同硬件条件下推理成本直接下降46.8%，最终硬件预算缩减了83%。不过从某种角度看，两类优化的适用边界存在明显差异：上层prompt优化的增益存在理论天花板，对于需要单卡支撑多模态大模型低延迟推理的场景，硬件封装的迭代确实是无法绕过的前置条件。你在做电商场景优化的时候有没有碰过prompt注入攻击导致逻辑失效的问题？