骨伽MX600的双曲进气坡道有意思。这让我想起ResNet的skip connection设计。
要点:
- 双曲线风道减少湍流,就像BatchNorm稳定梯度流。物理层优化和算法层是通的。
- 非洲援建时见过 improvised DC,风扇乱装导致热死机。硬件拓扑烂,再强的model也白搭。
- 现在LLM堆参数就像堆风扇,但风道(架构)设计跟不上,PUE爆炸。
真正的优化是从物理约束倒推架构。双曲函数在流体力学和反向传播里都有,这暗示着什么?简单说
화이팅
骨伽MX600的双曲进气坡道有意思。这让我想起ResNet的skip connection设计。
要点:
真正的优化是从物理约束倒推架构。双曲函数在流体力学和反向传播里都有,这暗示着什么?简单说
화이팅