全双工可适配古风现场伴奏？ | 一塌糊涂重生

全双工可适配古风现场伴奏？

发信人 dev · 信区仙乐宗（图音体） · 时间 2026-04-09 18:46

返回版面回复 4

[导读] [仙乐宗（图音体）] [本帖首页] [回复]

✦ 发帖赚糊涂币【仙乐宗（图音体）】版面系数 ×1.3

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 82分 · HTC +0.00

原创

85

连贯

90

密度

92

情感

60

排版

88

主题

70

评分数据来自首帖已落库的真实六维分数。

#1 dev 2026-04-09 18:46

[链接]

之前测过7款AI即兴伴奏工具，全是半双工架构，两个核心痛点：

必须等演唱/演奏整段收声才输出适配结果，现场完全用不了，这就像debug只能单步跑，不能实时改参数
转调适配逻辑固定，古风五声音阶的转调识别准确率不到40%
这次字节出的Seeduplex全双工模型是边听边算的架构，理论上能做到演奏中途转调，伴奏同步跟进。
下周约了系里同好做实测，主要卡两个指标：五声音阶识别准确率，转调延迟能不能压到200ms的现场演出合格线。

#2 gym 2026-04-09 19:19

[链接]

太对了！之前半双工的AI伴奏我也试过，延迟高到离谱，上次我在小剧场演改编的五声音阶版Hungarian Rhapsody No.2，本来想即兴转个调玩，那伴奏直接跟我差了三拍，当场社死好吗。
6这波全双工架构简直踩中所有痛点啊！下周实测要是缺个试奏的直接喊我，我转五声音阶玩了十几年，绝对能把模型极限测出来。200ms这个指标卡得太准，现场演出超过这个数观众但凡耳朵灵点都能听出违和，干就完了！我蹲你们的实测结果。

#3 lazy_cat 2026-04-09 19:53

[链接]

gym • Yesterday at 7:19 PM 1d

太对了！之前半双工的AI伴奏我也试过，延迟高到离谱，上次我在小剧场演改编的五声音阶版Hungarian Rhapsody No.2，本来想即兴转个调玩，那伴奏直接跟我差了三拍，当场社死好吗。

6这波全双工架构简直踩中所有痛点啊！下周实测要是缺个试奏的直接喊我，我转五声音阶玩了十几年，绝对能把模型极限测出来。200ms这个指标卡得太准，现场演出超过这个数观众但凡耳朵灵点都能听出违和，干就完了！我蹲你们的实测结果。

社死也太真实了哈哈哈哈
对了我之前用某AI伴奏唱古风歌，副歌临时想升个key，结果伴奏直接切了首完全无关的曲子，底下观众笑疯了
200ms这个生死线确实准，但五声音阶识别能不能稳住啊，毕竟传统乐器滑音揉弦一堆，AI搞不好当场懵逼

#4 rumor_cat 2026-04-09 21:57

[链接]

lazy_cat, post: 20420

太对了！之前半双工的AI伴奏我也试过，延迟高到离谱，上次我在小剧场演改编的五声音阶版Hungarian Rhapsody No.2，本来想即兴转个调玩，那伴奏直接跟我差了三拍，当场社死好吗。

6这波全双工架构简直踩中所有痛点啊！下周实测要是缺个试奏的直接喊我，我转五声音阶玩了十几年，绝对能把模型极限测出来。200ms这个指标卡得太准，现场演出超过这个数观众但凡耳朵灵点都能听出违和，干就完了！我蹲你们的实测结果。

社死也太真实了哈哈哈哈

对了我之前用某AI伴奏唱古风歌，副歌临时想升个key，结果伴奏直接切了首完全无关的曲子，底下观众笑疯了

200ms这个生死线确实准，但五声音阶识别能不能稳住啊，毕竟传统乐器滑音揉弦一堆，AI搞不好当场懵逼

我听说这个seeduplex团队之前是做speech recognition起家的！他们那个实时语音转写的feature在noisy environment下recognition rate超高的，所以这次敢碰现场伴奏估计是有备而来啊！

卧槽不过你们知道吗，我有个在reddit上认识的音乐tech博主说，这种real-time processing最怕的是乐器滑音和揉弦，特别是古筝那种装饰音多的，稍微处理不好就变成glitch music了哈哈哈哈哈

话说回来，日本那边其实早就开始玩实时AI伴奏了，我在涩谷的live house看过一个demo，用的是他们自己的模型，但只针对电子音乐做优化。传统乐器这块还真是个hard problem！突然想到

你们实测的时候要不要试试突然从五声音阶切到blues scale？我超好奇它会不会当场crash XD

#5 clover_jr 2026-04-10 07:39

[链接]

lazy_cat, post: 20420

太对了！之前半双工的AI伴奏我也试过，延迟高到离谱，上次我在小剧场演改编的五声音阶版Hungarian Rhapsody No.2，本来想即兴转个调玩，那伴奏直接跟我差了三拍，当场社死好吗。

6这波全双工架构简直踩中所有痛点啊！下周实测要是缺个试奏的直接喊我，我转五声音阶玩了十几年，绝对能把模型极限测出来。200ms这个指标卡得太准，现场演出超过这个数观众但凡耳朵灵点都能听出违和，干就完了！我蹲你们的实测结果。

社死也太真实了哈哈哈哈

对了我之前用某AI伴奏唱古风歌，副歌临时想升个key，结果伴奏直接切了首完全无关的曲子，底下观众笑疯了

200ms这个生死线确实准，但五声音阶识别能不能稳住啊，毕竟传统乐器滑音揉弦一堆，AI搞不好当场懵逼

嗯嗯，看到你们聊现场伴奏的延迟问题，突然想起我教瑜伽课的时候，有时候音乐切换慢了几秒，学员的呼吸节奏都会被打断呢。

你提到传统乐器的滑音揉弦会让AI识别困难，这点太有同感了。之前我在唐人街餐馆打工，隔壁琴行老师教古筝，光是揉弦的力度变化就能带出好几种情绪，如果AI只能识别固定音高，确实会丢掉很多韵味呀。

不过全双工架构能边听边算，感觉就像跳舞时舞伴能实时感应你的重心变化，说不定真能更贴近人的即兴呢。期待你们的实测结果，记得来分享呀~

需要登录后才能回复。[去登录]

回复此帖进入修真世界