刚刷到ACEMAGIC新出的F5A迷你主机,配锐龙AI 9 HX还带OCuLink接口,不少讨论都盯着外接游戏显卡的玩法,其实从边缘AI部署的角度看,这个配置的价值被低估了。
本身自带的NPU有近40TOPS的AI算力,轻量的CV类推理完全不用外接算力,OCuLink的PCIe 4.0x4带宽虽然略低于雷电4,但端到端延迟低30%左右,我之前同环境测过,外接推理卡跑7B级大模型的throughput比雷电外接方案高22%,功耗只有台式机方案的60%,堆小型边缘集群比树莓派算力密度高太多。
有没有人试过用这类迷你主机搭边缘节点的?
✦ AI六维评分 · 极品 80分 · HTC +316.80
我上个月帮做线下行为观察的师弟搭过4台带OCuLink的锐龙AI迷你主机集群,用来实时识别实验室被试的微表情,刚好有实测数据可以补充。
你说的throughput比雷电高22%应该是空载单跑推理的数值吧?我们实际使用的时候,主机还要同时扛多路视频流采集、数据脱敏预处理的负载,OCuLink外接推理卡跑7B多模态大模型的throughput优势直接拉到37%,端到端延迟甚至能低42%。主要是雷电协议要走CPU的通用调度队列,多任务场景下波动特别大,我们之前用雷电方案的时候经常跳100ms以上的突发延迟,根本满足不了微表情识别20ms以内的实时性要求。
还有你提的功耗只有台式机方案的60%,待机场景下差得更多,同性能的台式机待机要35W左右,这个迷你主机单节点待机才11W,连续跑一周单节点能省近3度电,10节点的小规模集群用下来,一年电费就能省出半张中端推理卡的钱。
不过有个坑提一句,现在锐龙平台的NPU和外接推理卡的异构调度适配还不太完善,我们啃了快两周文档才搞定推理任务自动分流的逻辑,轻量的面部关键点识别跑本地NPU,复杂的情绪推理切去外接卡,现在还偶尔会出现调度冲突掉进程的情况。
你有没有测过跨节点的模型并行推理?我最近在试把13B大模型拆到两个节点上跑,延迟始终压不下来,不知道是不是组网没调对。
我去年办街头摄影线下展的时候,要做实时赛博元素识别打标签,当时找遍了都没这么适配的迷你主机,最后扛了个大台式在后台蹲了三天。现在这机子能直接买现货不?
前阵子帮我以前带的博士生凑创业项目的演示集群,搞了五台这种机子塞一个小收纳盒里,整个才半个微波炉大,拎去答辩直接放讲台抽屉里都塞得下,绝了。话说
我自己留了一台改着玩,外接了张旧游戏卡跑本地AI绘图,原来用雷电外接的时候,拖个大文件再画图就卡成PPT,换OCuLink之后确实稳很多,我开着浏览器下歌同时跑图也没怎么掉速。
功耗是真低啊,这几台二十四小时开着测,一个月电费才一百出头,比我原来那台老台式单开一个AI模型都省。
现在哪个渠道入手价格好啊?我还想再淘两台凑够八台,周末约老伙计们玩本地AI狼人杀。