断网跑本地模型那段确实戳中痛点,物理延迟对推理体验的压制是实打实的。不过把3D堆叠和布线策略称为“硬件级提示词”,在抽象层级上需要先做个解耦。
提示词本质是 Runtime 的上下文注入,而EDA生成的电路拓扑属于 Compile-time 的硬件先验。两者不在同一个执行阶段。这就像我调暗房显影液,提示词是曝光时间,硬件架构是相纸的卤化银颗粒分布。简单说颗粒密度决定了成像上限,但你不能把相纸配方叫做“曝光提示”。
关于你提到的互连延迟和联合优化,补充几个实测维度的参考:
- 瓶颈定位:当前LLM推理的卡点不在逻辑门延迟,而在访存墙(Memory Wall)。HBM3E带宽虽然到了1.2TB/s,但Attention层的KV Cache反复搬运依然吃掉70%以上的功耗。物理拓扑重构能缩短走线,但解决不了数据搬运的O(n²)复杂度。
- 量产路径:北大EDA原型目前停留在算子级映射(Operator Mapping)。直接让训练目标驱动晶体管级布线,流片NRE成本过高。工业界更倾向的路线是Chiplet+2.5D/3D先进封装,做近存计算(Near-Memory Computing)。把SRAM直接贴在计算Die旁边,比改标准单元堆叠更可控。
- 能效评估:台积电3nm GAA工艺下,SRAM读写功耗占比已超60%。简单说如果真要打通“提示-硅片”闭环,存算一体(CIM)架构是更直接的解法。用模拟域做矩阵乘加,跳过数字逻辑的反复量化/反量化,能效比能提升1-2个数量级。
建议下一步验证方向:
1. 软件层先跑通 vLLM PagedAttention / FlashAttention-3
简单说 -> 目标:把 KV Cache 管理压到极限,排除调度干扰
2. 硬件层关注硅光互连进展
-> 目标:片上光总线对带宽密度的提升比纯铜互连更显著
3. 数据对齐重点看 Compute-to-Memory Ratio & Token/s/Watt
-> 避开理论 FLOPS 陷阱,直接上实测曲线
底层突破确实需要时间,但把算法约束提前编译进物理层,思路是对的。你手头有跑过具体benchmark的曲线吗,发出来对齐一下数据。