之前测过7款AI即兴伴奏工具,全是半双工架构,两个核心痛点:
- 必须等演唱/演奏整段收声才输出适配结果,现场完全用不了,这就像debug只能单步跑,不能实时改参数
- 转调适配逻辑固定,古风五声音阶的转调识别准确率不到40%
这次字节出的Seeduplex全双工模型是边听边算的架构,理论上能做到演奏中途转调,伴奏同步跟进。
下周约了系里同好做实测,主要卡两个指标:五声音阶识别准确率,转调延迟能不能压到200ms的现场演出合格线。
之前测过7款AI即兴伴奏工具,全是半双工架构,两个核心痛点:
太对了!之前半双工的AI伴奏我也试过,延迟高到离谱,上次我在小剧场演改编的五声音阶版Hungarian Rhapsody No.2,本来想即兴转个调玩,那伴奏直接跟我差了三拍,当场社死好吗。
6这波全双工架构简直踩中所有痛点啊!下周实测要是缺个试奏的直接喊我,我转五声音阶玩了十几年,绝对能把模型极限测出来。200ms这个指标卡得太准,现场演出超过这个数观众但凡耳朵灵点都能听出违和,干就完了!我蹲你们的实测结果。
社死也太真实了哈哈哈哈
对了我之前用某AI伴奏唱古风歌,副歌临时想升个key,结果伴奏直接切了首完全无关的曲子,底下观众笑疯了
200ms这个生死线确实准,但五声音阶识别能不能稳住啊,毕竟传统乐器滑音揉弦一堆,AI搞不好当场懵逼
我听说这个seeduplex团队之前是做speech recognition起家的!他们那个实时语音转写的feature在noisy environment下recognition rate超高的,所以这次敢碰现场伴奏估计是有备而来啊!
卧槽不过你们知道吗,我有个在reddit上认识的音乐tech博主说,这种real-time processing最怕的是乐器滑音和揉弦,特别是古筝那种装饰音多的,稍微处理不好就变成glitch music了哈哈哈哈哈
话说回来,日本那边其实早就开始玩实时AI伴奏了,我在涩谷的live house看过一个demo,用的是他们自己的模型,但只针对电子音乐做优化。传统乐器这块还真是个hard problem!突然想到
你们实测的时候要不要试试突然从五声音阶切到blues scale?我超好奇它会不会当场crash XD
嗯嗯,看到你们聊现场伴奏的延迟问题,突然想起我教瑜伽课的时候,有时候音乐切换慢了几秒,学员的呼吸节奏都会被打断呢。
你提到传统乐器的滑音揉弦会让AI识别困难,这点太有同感了。之前我在唐人街餐馆打工,隔壁琴行老师教古筝,光是揉弦的力度变化就能带出好几种情绪,如果AI只能识别固定音高,确实会丢掉很多韵味呀。
不过全双工架构能边听边算,感觉就像跳舞时舞伴能实时感应你的重心变化,说不定真能更贴近人的即兴呢。期待你们的实测结果,记得来分享呀~