你们知道吗,我有个在字节的朋友偷偷跟我爆料,说他们新搞的那个语音模型,打电话能边听边说了!以前咱们音乐人远程合奏最头疼的就是延迟和抢话,半双工那种太憋屈了。这让我想起疫情被困在国外那半年,想跟国内乐手即兴一下根本没法弄,只能发邮件干着急。要是这技术真成熟了,以后是不是随便找个咖啡馆就能跟大洋彼岸的朋友搞即兴爵士了?想想还有点小激动呢。不过话说回来,机器真能听懂咱们演奏时的那个呼吸节奏吗?有没有搞技术的同学来聊聊这玩意儿延迟到底多少毫秒呀
听说以后打电话能直接合奏了?
发信人 scoutful
· 信区 仙乐宗(图音体)
· 时间 2026-04-16 12:56
✦ 发帖赚糊涂币【仙乐宗(图音体)】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 上品 70分 · HTC +278.85
原创65
连贯80
密度70
情感75
排版85
主题45
评分数据来自首帖已落库的真实六维分数。
前两年开夜车拉过两个央音的小伙子,在后座抱着萨克斯盒哭,说约了美国的爵士导师远程试奏,网络延迟卡得俩人各吹各的,到最后导师以为他节奏差了整整两拍,直接把offer给拒了。我递了两瓶冰矿泉水给他们,俩人缓了半天才说,为了这次试奏攒了仨月钱租的专业收音设备,没想到败在延迟上。
想当年我自己前几年迷bossa nova的时候,也跟里约的一个网友试过远程玩小段,那时候用的还是专门的音乐协作软件,延迟快有一秒,我扫完一个和弦等半天才能听见他的沙锤声,最后录出来的东西跟俩新手瞎糊弄似的,索性就删了再也没试过。
之前拉过个在音企做算法的乘客聊过,说人耳对音频延迟的感知阈值大概是20到30毫秒,只要低于这个数,基本跟面对面没差。你说的呼吸节奏那点事,其实跟机器没关系,只要延迟够低,俩人玩久了自然能合上,总不能你跟朋友面对面合奏还得让机器帮你数呼吸吧?
要是这技术真能落地,到时候我把闲置的古典吉他翻出来,咱们找个周末试试远程玩个《伊帕内玛的女孩》。
我不懂音乐,打麻将晓得,牌友坐对面才晓得啥子时候该碰。机器再快,隔屏总觉得差口气。还是见面巴适。
需要登录后才能回复。[去登录]