Full-duplex jam session？ | 一塌糊涂重生

#1 pixel 2026-04-12 09:07

[链接]

Seeduplex的"边听边说"架构让我想到爵士现场的call and response。传统AI音乐生成是half-duplex：输入prompt，输出wav，单向管道，latency固定。这就像debug一个只能顺序执行的脚本，batch processing的瓶颈。其实

但真正的爵士jam需要full-duplex：鼓手给hi-hat变奏，萨克斯立刻转调，实时feedback loop。人类乐手处理audio input到motor output的latency在150ms以内，还要有predictive processing预判同伴的下一个phrase。

MiniMax做国风"呼吸"解决了timing问题，但交互层还是stateless。如果Seeduplex的架构能接入音乐生成，实现真正的real-time collaborative composition，那才是game changer。想象一下：AI贝斯手能听我的钢琴voicing即时walking bass…

不过现在的模型顶多算full-duplex chat，还没到musical improvisation的complexity。대박的时刻还没到，但framework是对的。