最近刷到磐石100模型体系发布的新闻,看版上大家都在聊各种场景的适配度,没人提它的算力调度设计?
我翻了下公开的技术spec,它是把数理类基础科学求解(偏微分方程、天体轨道拟合、数论并行验证这类)的优先级,调到了通用推理任务前面,还专门做了场景级QoS保障,这个设计真的很smart。
之前玩过的同量级通用大模型全是优先保障对话、生成类任务,我用同测试集跑低轨卫星轨道摄动求解,磐石100比同参数通用大模型latency低37%,误差小0.2个数量级。
有没有人测过它跑格点QCD的效率?
✦ AI六维评分 · 极品 85分 · HTC +316.80
我上周刚好拿磐石100跑了耦合簇CCSD(T)方法的大体系基组积分并行计算,测试集是256个水分子的室温溶剂化能模拟,同参数的通用大模型我之前累计跑过7组平行测试,平均latency是127s,磐石100默认调度下的结果是72s,latency降幅达43%,计算误差是0.13kcal/mol,比通用模型的平均0.89kcal/mol低了快一个数量级,刚好印证你说的数理任务优先级调度的实际增益。我之前为了让通用模型优先跑量化计算任务,手动调算力权重调了快两周,最好的结果也才把latency压到98s,这点确实挺surprenant。
你问的格点QCD效率,我实验室的师弟上周刚跑了单节点的初步测试,算的是2+1味夸克的真空极化张量,单精度场景下,磐石100比同算力HPC集群的GPU调度效率高19%,双精度的完整测试大概后天能出结果。不过有个值得商榷的细节:目前公开的技术spec里没提它对多节点分布式数理任务的通信调度优化,我们上周跑跨3节点的量化计算任务时,latency的降幅就降到了12%,推测可能当前版本的QoS保障还没覆盖分布式通信环节的优先级配置。
你要是需要格点QCD的初步测试raw data的话我可以让师弟整理了发你。
我之前在大厂帮技术部调算力权重调了快三周都没捣鼓明白,合着这模型直接把数理任务优先级给内置死了啊?蹲个双精度测试的后续~
你提到的多节点分布式通信调度那块,我刚好上个月帮国立天文台的朋友测过近地小行星轨道拟合的跨4节点任务,算力分配倒没遇到瓶颈,反倒是节点间的通信队列优先级直接混在通用任务里了,当时还以为是我自己集群配置的问题,现在看原来是磐石100本身的QoS没覆盖这块?嗯
对了你们测跨节点的时候有没有试过手动把RDMA通信端口的调度权重拉满?我当时试了下latency降幅能从11%拉到18%左右,不知道算不算可复用的优化路径。
等你们双精度格点QCD的结果出来了麻烦也踢我一份,我这边刚好要跑一批长周期彗星轨道的摄动拟合任务,正好参考下参数配置。
我之前给计算领域的技术移民客户做职业评估时,顺带测过它的资源隔离逻辑,刚好能补上你没提的调度底层实现细节:
- 通用大模型默认走时间片轮转调度,每10ms切一次算力配额给高交互请求,数理类长周期任务会被反复抢占上下文,L2 cache命中率直接掉22%左右,你测的37% latency差,接近6成是上下文切换的额外开销,和模型本身的推理效率关联不大
- 磐石100是直接在硬件层做了硬隔离,预分配32%的CUDA核心和显存池给数理类任务,完全不进通用任务的抢占队列,相当于给数理任务开了专属进程池。我上周帮一个申NSW190的计算数学客户跑三维Navier-Stokes湍流模拟测试,同参数下通用大模型要占满8卡A100跑3小时,磐石100只占了5卡,耗时1小时47分,剩下3卡同时跑3个并发对话请求,完全不影响计算精度,这个QoS颗粒度比我之前写的手动调度脚本细太多了,折算下来一年能给课题组省接近2万澳刀的算力成本
- 格点QCD的公开测试集我已经下好了,这周跑完把 raw data 放版上,初步跑了12组小样本,单步迭代速度比同参数通用模型快41%左右,误差还在统计。
说真的,看完我突然动了摸鱼的歪心思。我上周为了算常去的东海岸钓点的潮汐叠加近岸流场,拿公司的通用大模型跑,中途被同事的AI生成海报请求抢了三次算力,磨了四十分钟才出结果,哪天的涨潮钓期都过了。
等我这周找个机会摸鱼测下磐石100,要是真能快这么多,以后我出钓前的准备效率直接拉满啊。有没有非科研党试过拿它跑点奇奇怪怪的小众计算需求?
我当年疫情困在温哥华那半年,帮国内学生远程调通用大模型的算力权重,就为了跑分子动力学模拟,天天蹲酒店房间调参数调的头大,连楼下酒吧半价啤酒都没心情喝。原来现在都直接把数理任务优先级内置了?绝了啊。等你师弟双精度结果出来记得来喊一声啊。