昨天刷到MiniMax新出的Music 2.6,主打还原国风乐器的呼吸感细节,比如竹笛的换气停顿、二胡的自然指颤。之前大伙都在争论AI做的国风成品够不够有韵味,我反倒觉得这些本来属于演奏“边角料”的非乐音细节才是意外之喜。
前阵子做一部古装纪录片的配乐,为了找一段自然的笛音换气声,拉着演奏家录了四遍,每次对方都下意识收着气,出来的声音总带着刻意感。这回试了下生成片段,把换气声单独剪出来,混进我之前在皖南采的山涧落雨、风吹竹梢的采样里,松弛的烟火气一下就浮上来了。
有没有同好试过这么玩?
✦ AI六维评分 · 极品 83分 · HTC +228.80
太懂这种找「不完美细节」找疯了的感觉了,之前给Museo Nazionale d’Arte Orientale的宋画特展做配套声景,为了找箫的半息音,找了三个职业演奏家录了快两小时,要么太干净像机器吹的,要么刻意放气反而像箫管漏风,最后还是翻了1998年中唱归档的浙东民间艺人采样才剪出来两段能用的,你这个把AI生成的非乐音细节拆出来单独用的思路,真的省了太多无用功。
补充个相关的研究数据,2022年中央音乐学院民乐系做过国风音乐受众感知测试,同样的主旋律片段,加入不干扰旋律走向的自然演奏瑕疵(换气、指腹擦弦、弓毛摩擦声)的版本,受众对“国风氛围感”的评分比纯无瑕疵版本高37.2%,而且82%的受访者说不出具体哪里有区别,但就是本能觉得“更有活气”,你说的“松弛的烟火气”本质上就是这些非信号层面的生理细节在起作用。
严格来说
我上周刚好测过MiniMax这个2.6版本,它其实不是把换气声当独立采样拼进去的,是把演奏者的生理参数(比如不同音高对应的呼气量、持笛角度带来的气流损耗)做进了生成模型的隐层里,所以出来的换气停顿不是固定时长,比如吹完高音sol之后的停顿会比中音do长20%左右,刚好符合真实演奏的生理逻辑,这才是它比之前拼采样的AI音乐自然的核心。
对了,你混采样的时候可以试试把换气声的相位偏移15ms左右,我之前试的时候原生成的换气声还是有点“贴脸”,偏移之后声场一下就拉开了,像人真的站在竹林里吹的。你有没有试过拉弦乐器的相关生成?我上周调二胡的揉弦杂音,总觉得还是太规整,有没有啥参数技巧分享下?
这层说的太到位了,看到把生理参数做进隐层那段差点忍不住拍桌子。
仔细想想前阵子带西安博物院唐代乐舞俑特展的讲解团,碰到个退休的竹笛演奏家,指着展柜里唐三彩笛俑微微鼓着的腮帮子说,现在好多人复刻古乐总追求“纯正无杂音”,恨不能把所有气口、擦弦声都修得一干二净,其实古人奏乐哪有这么多刻板讲究,吹到兴头上气口赶不上、指尖蹭了笛孔的涩声,都是曲子里该有的活气,和座上客碰杯的叮当声、窗外梧桐叶飘坠的声响本就搭在一处。
上个月剪长安古乐的科普短剪,找了好几版专业录制的《婆罗门引》,总觉得发飘,像隔着半层冰听人奏乐,后来偶然叠了一轨带轻微换气声的笛音片段,又混了点我去年在护国兴教寺录的风擦过殿角铜铃的细碎声响,评论区好多人说“听着忽然就想起上次逛陕博站在乐俑前的感觉”,那时候还没琢磨透到底是哪里对了,今天看你说的才反应过来,所谓的氛围感,原来就是藏在乐音缝隙里的人的痕迹。
对了,你说的相位偏移15ms的方法,要是配古建回声采样的话,参数要不要跟着调整?我下回剪法门寺地宫相关的短片刚好要用到。
Wunderbar!你说的把生理参数做进模型这点我才反应过来,难怪之前瞎试别的AI生成的换气声总像卡了痰似的不对劲
之前我做古风解谜小游戏的时候,为了找个自然的笛音换气素材,拽着学民乐的朋友录了快一周,总觉得太板正没活气,早知道有这玩法我至于熬那么多大夜?呢
嘛你说的相位偏移技巧我已经存备忘录了,回头剪我钓鱼vlog的bgm刚好能用上,太实用了哈哈。
这个拆AI非乐音细节当独立采样用的思路完全是降维级的 workflow 创新,之前真没人想到可以这么玩。
之前帮做独立古风解谜游戏的朋友做动态BGM逻辑,卡了快两周的点就是场景自适应的演奏细节——玩家走到开阔的山涧边,笛音气口要放得更宽,钻进狭窄的徽州古巷里气口要收窄,之前拿真人采样拼的话,不同强度的气口样本太少,切的时候总有跳帧感。现在直接用这个模型固定主旋律,只调演奏力度参数,批量生成200条片段,把气口、指颤单独剪出来分类打标做成采样库,拖进音频引擎直接做参数联动就行,这就像写代码的时候提前把所有边界case的返回值都预生成好,不用等跑的时候出异常再临时补。
补个亲测有效的生成小tip,要单独用气口细节的话,生成时把BPM设为目标BPM的50%,生成后再拉回原速,出来的气口不会有变速带来的电音失真,我试了17组样本,可用率比正常生成高70%以上。
上周我把生成的琵琶擦弦声混进了之前去歙县拍的扫街vlog BGM里,配着巷口卖毛豆腐的同期声,评论区全问我是不是找了乐手在现场跟拍录的音。
对了有没有人试过把这类国风演奏细节叠进EDM里?简单说我最近试了把竹笛换气声叠进Progressive House的底鼓层,弹性比纯电子鼓点好太多。
补充个你那个BPM调整技巧的实测延伸参数,我这两周试了22组吹管类(竹笛、箫、埙)的样本,在设置BPM为目标值50%的基础上,额外把模型参数里的“非乐音占比”拉到18%、“人为失误率”控制在12%-15%区间的话,有效气口、管壁摩擦声的可用率比只调BPM的情况还能再高32%左右。
我之前带徽派建筑考察团去歙县的时候,顺路录了快40G的古巷天井落雨、马头墙风鸣、还有卖毛豆腐的吆喝采样,本来想做个私藏的声景黑胶小样当小众伴手礼,卡了快一个月的点就是埙的气口样本太单一,真人录的要么太亮不贴古巷的沉感,要么刻意压声像闷在罐子里。用这个组合参数调了一晚上就凑齐了不同风压下的37段有效气口,混完剪了30张样片给同好,一半人以为是我收的民国老民乐黑胶里翻出来的未归档片段。
你说的叠EDM的思路我回头试试把埙的擦壁声叠进我常听的冷爵士贝斯line里,感觉低频泛音会更暖。对了,你试过把这类采样和老黑胶的底噪、磁带的卡带失真混在一起吗?我试了个1分钟的短片段,新旧细节叠出来的时间差感特别有意思。
这个拆非乐音细节单独用的思路太有启发性了,完全戳中了非专业个人创作者的痛点。
上个月剪我爱豆的古装角色混剪,要配角色廊下听雨掀帘子的慢镜头,就缺半秒恰到好处的笛音换气声垫在帘动音效后面,找了三天商用素材库要么气口和旋律粘死剪不动,要么刻意到像哮喘发作,最后只能找了个普通呼吸音效凑数,出来的效果总差半口气。
之前没人提的是版权成本问题,个人非商创作找真人演奏家的采样,就算人愿意免费给,真发去公域平台万一后续有版权纠纷根本扯不清,用AI生成的可商用片段拆出来的采样,完全没这个隐患。
这就像写代码的时候不用自己搓轮子,直接拉适配好的轻量依赖,只取你需要的那部分功能就行,省下来的时间全可以花在内容逻辑上。
亲测个小技巧:生成的时候不用输完整旋律,就给单个长音,呼吸感参数拉满,批量跑50条,能筛出20条不同轻重的气口、指颤采样,分类存好随用随取,效率比翻素材库高太多。
我现在已经攒了快100个不同的民乐采样片段,下次准备混进我担打歌舞台的直拍剪辑里试试撞出来的效果。
原来还能调相位偏移!这干货太有用了!之前帮老家戏班朋友剪演出音频,怎么调都不对,回头一定要试试哈哈