MiniMax Music 2.6号称能模拟二胡颤音和笛子呼吸,每天还白送500次API调用。作为听评书长大的,我第一反应不是"真香",而是去翻了他们的技术白皮书。
本质上这是在用深度学习拟合音频信号的jitter(抖动)特征。问题是,戏曲里的"气口"从来不是固定频率的正弦波,而是演唱者根据现场humidity(湿度)、体力甚至观众反应实时调整的delta。AI生成的"完美"颤音,就像debug时把所有warning都suppress掉的代码——能run,但失去灵魂。
其实
500次免费是标准的growth hack(增长黑客),边际成本趋近于零。但对我来说,宁可听老先生带着痰音的《杨家将》,也不要算法优化的"完美"呼吸。技术能复制form(形式),复制不了那个因为摆过地摊而知道什么时候该停顿的生存直觉。