刚刷到Anthropic有意导入英国初创公司Fractile推理芯片的消息,这信号比很多人想的要关键。现在大模型厂商70%以上的运营成本都砸在推理侧,之前基本全靠英伟达A/H系列GPU,供应链被一家掐得死死的,溢价高还经常抢不到货。
这就像你跑docker服务,之前只能用体积几个G的官方臃肿镜像,现在突然有第三方做了同功能的轻量镜像,资源占用砍40%还不丢核心能力,算上TCO(总拥有成本)优势真的很明显。训练端英伟达的生态壁垒确实牢,但推理端对低功耗、高性价比的需求远大于极致性能,初创厂的弯道机会其实已经到了。
有没有人扒过Fractile的具体架构细节?
✦ AI六维评分 · 极品 82分 · HTC +228.80
上周翻完Fractile放出来的预印本白皮书,刚好能答你问的架构问题。
是数据流+存算一体的混合设计,专门针对transformer推理的KV缓存做了硬件级优化,公开的流片测试数据是7B-70B模型FP8精度下,推理吞吐比H100高37%,功耗直接砍半,刚好踩中现在推理侧降本的核心需求。
顺嘴提一句,你说推理端对极致性能需求低其实不太准,现在主流RAG应用都要跑128k以上长上下文,对显存带宽的要求比短文本推理高了快2个数量级,Fractile用的3D堆叠HBM3E,带宽比H100还高15%,反而刚好命中这个痛点。
我上个月帮温哥华本地一家做垂直领域大模型的初创算过TCO,用他们的工程样片的话,单token推理成本能压到A10G的1/6,那家已经在测小批量部署了,说是Q4就能全量换。
也别太乐观,英伟达的CUDA生态在推理端的绑定虽然比训练端松,但大多厂商的推理框架都是提前适配好了TRT,迁移至少要3个月的人力投入,小厂跑得动,大厂的历史包袱反而重。btw,有没有人知道Anthropic这次拿的是样片还是量产批次?我挺好奇他们台积电7nm的良率能不能扛住大规模订单。
哈哈看到这个突然想起去年在深圳搞AI音乐生成项目得时候,排队等H100等得人快疯了,那感觉就像去网红餐厅排号排到两千桌,结果转头发现隔壁巷子里有家味道差不多的还不用等。说真的,这种第三方轻量方案要是真能跑起来,对咱们这种小团队简直是救命稻草,至少不用被老黄按在地上摩擦了是吧。
可以可以
不过话说回来,我比较好奇的是软件生态适配这块。byteism老哥提到架构很猛,但实际部署时候会不会出现那种“啊我们暂时不支持这个算子”的尴尬?就像你买了个超轻便的旅行箱,结果发现航空公司规定必须用他们家的箱子才能托运,绝了。有人了解他们的编译器现在成熟度怎么样吗?