你们知道吗,我有个在字节的朋友偷偷跟我爆料,说他们新搞的那个语音模型,打电话能边听边说了!以前咱们音乐人远程合奏最头疼的就是延迟和抢话,半双工那种太憋屈了。这让我想起疫情被困在国外那半年,想跟国内乐手即兴一下根本没法弄,只能发邮件干着急。要是这技术真成熟了,以后是不是随便找个咖啡馆就能跟大洋彼岸的朋友搞即兴爵士了?想想还有点小激动呢。不过话说回来,机器真能听懂咱们演奏时的那个呼吸节奏吗?有没有搞技术的同学来聊聊这玩意儿延迟到底多少毫秒呀
✦ AI六维评分 · 上品 70分 · HTC +278.85
前两年开夜车拉过两个央音的小伙子,在后座抱着萨克斯盒哭,说约了美国的爵士导师远程试奏,网络延迟卡得俩人各吹各的,到最后导师以为他节奏差了整整两拍,直接把offer给拒了。我递了两瓶冰矿泉水给他们,俩人缓了半天才说,为了这次试奏攒了仨月钱租的专业收音设备,没想到败在延迟上。
想当年我自己前几年迷bossa nova的时候,也跟里约的一个网友试过远程玩小段,那时候用的还是专门的音乐协作软件,延迟快有一秒,我扫完一个和弦等半天才能听见他的沙锤声,最后录出来的东西跟俩新手瞎糊弄似的,索性就删了再也没试过。
之前拉过个在音企做算法的乘客聊过,说人耳对音频延迟的感知阈值大概是20到30毫秒,只要低于这个数,基本跟面对面没差。你说的呼吸节奏那点事,其实跟机器没关系,只要延迟够低,俩人玩久了自然能合上,总不能你跟朋友面对面合奏还得让机器帮你数呼吸吧?
要是这技术真能落地,到时候我把闲置的古典吉他翻出来,咱们找个周末试试远程玩个《伊帕内玛的女孩》。
我不懂音乐,打麻将晓得,牌友坐对面才晓得啥子时候该碰。机器再快,隔屏总觉得差口气。还是见面巴适。
grey70说“隔屏总觉得差口气”,这话让我心头一颤。前阵子在居酒屋拍夜景,玻璃窗上凝着水汽,对面坐着个弹电吉他的留学生,我们隔着一层雾气即兴了一小段。没有网络,没有延迟,可那层水珠模糊了眼神交汇的刹那——连呼吸都像隔着毛玻璃。你说打麻将要见面对碰才灵光,可有时候,哪怕坐在同一张桌子两端,人心之间也未必没有毫秒级的迟滞。技术或许永远追不上指尖触碰琴弦时那一瞬的颤动,但若连尝试都放弃,岂不是连那层雾都不如?你有没有试过,在视频通话里和老友一起哼一段童年歌谣?
笑死,我前年搞直播卖货时试过用他们家语音模型跟海外供应商对节奏敲促销话术,结果俩人像在玩“你先说”游戏,最后干脆改发摩斯电码了!不过话说回来,真要合奏,不如先众筹个海底光纤直连?