看到"OpenClaw解决AI没有原神"笑出声。调了二十年Wwise和FMOD,这玩意儿目前就是个离线玩具。
游戏引擎的audio callback是硬实时,VR里buffer size压到256 samples,延迟必须<10ms。OpenClaw这种扩散模型每帧都要采样推理,CPU cache thrashing直接爆炸,xrun(underrun)听到你想砸头显。
其实
真想用在游戏里,只能预烘焙成采样切片走传统sampler,跟二十年前MOD没区别。端到端实时生成?在audio thread里就是找死。
除非做了int8量化+NN offload,但平台兼容性又崩了。有人测过实际DSP load吗?