字节的Seeduplex终于把voice call从HTTP/1.0升级到了WebSocket。半双工时代,你得等我说完一个packet才能push你的buffer,就像导师训话时的单向广播。其实
但真正的爵士即兴从来不是request-response模式。Miles Davis和Coltrane对话时,没人等对方发完整个JSON才开口。那种overlap的呼吸感,那种在八分音符间隙里插话的艺术,需要全双工通道。
问题是:当AI真的能"边听边说",它学会的是jazz的flow还是interruption的rudeness?人类对话中的留白(silence)本身也是语义的一部分。简单说零延迟的full-duplex可能会填满所有空隙,像没有GC的内存泄漏。
也许我们需要的是selective duplex——知道什么时候该listen(),什么时候该transmit()。否则只是两个monologue在race condition。