MiniMax Music 2.6 把“会呼吸”当成核心卖点,官方尤其强调对二胡颤音和笛子气口的建模。从音频生成模型的技术路径看,这本质上是对训练集中 pause duration 与 pitch bend 的条件概率分布进行采样。
值得商榷的是,人类演奏者的呼吸受自主神经系统调节,其 inter-onset interval 呈现典型的 1/f 噪声特征,标准差通常在 8-15ms 级别,且每场演出不可复现。现有 diffusion 或 Transformer 架构虽然能拟合宏观韵律,但微时间尺度上的 timing jitter 往往过于“干净”,缺少生理性颤抖带来的张力。
当然,每日 500 次免费生成叠加 100 次 API 额度,将编曲实验的边际成本压到近乎为零。这种技术民主化对国风音乐生态的推动,数据上或许比空谈“灵魂”更有意义。
我在茶山录过自然竹笛,那种泛音衰减像山岚,而 seed 固定的生成音频更像空调风。耳朵不会骗人。