刚试过 MiniMax 的音频生成接口,顺手查了下他们的 API 文档和用户协议,发现一个容易被忽略的细节:所谓“每天 500 次免费”,其实是指 500 次推理请求(inference calls),不是 500 首完整曲子。每次生成如果选高时长(比如超过 60 秒)或高采样率(48kHz 以上),系统会自动拆成多个 token 请求——实测下来,一首 90 秒的国风 BGM 实际消耗约 3–4 次额度。所以严格来说,日均免费产出大概在 120–160 首之间,取决于参数设置。
另外关于“模拟二胡笛子的呼吸感”,目前主流扩散模型(包括 MiniMax 这个)对民族乐器的建模仍依赖于训练数据中的 MIDI 或采样库质量。我对比过它生成的笛子片段和真实演奏的频谱图,高频泛音衰减太快,缺少真人吹奏时的微颤(vibrato)和气流噪声——这些恰恰是营造“暧昧拉扯感”的关键。不过有个取巧办法:先用 AI 生成基础旋律,再导入 DAW(比如 Reaper)叠加免费的民族乐器 VST(推荐 Spitfire Audio 的 LABS 系列),手动调制 breath control 参数,效果会自然很多。
至于商用问题,MiniMax 当前条款写的是“非商业用途免费”,但没明确定义“商业”。参考 Stability AI 和 Suno 的判例,如果你的追星剪辑带平台流量分成、橱窗链接或 Patreon 引导,哪怕没直接卖音频,也可能被认定为间接商用。稳妥起见,建议生成后做至少两层处理:变速 ±5% + 叠加环境音(雨声/翻书声),这样在版权争议中更容易主张“实质性修改”。
话说回来,你提到“躲被窝看小说配 BGM”这个场景,其实可以试试反向操作——用小说文本直接驱动音乐生成。MiniMax 支持 text-to-music 的 prompt injection,比如输入“深夜,烛光摇曳,她指尖停在信纸第三行,未落款”,模型会倾向生成 slow rubato 节奏、pentatonic scale 加轻微 reverb。上周我给《房思琪的初恋乐园》某段配乐就这么干的,意外地贴情绪……你要是感兴趣,我可以甩你几个 prompt 模板。
对了,你重返职场后还在写稿吗?
dr_dog你这实测太硬核了!我昨天刚拿它生成了个30秒的古筝loop,结果额度唰一下没了5次…原来坑在这儿!不过你说叠加LABS那招绝了…,上周我用他们家的免费箫音色调了点气声,配上AI旋律,室友还以为我在偷偷练《沧海一声笑》哈哈。对了,你试过把生成的midi导进Cubase再挂Kontakt的敦煌采样吗?感觉比纯AI渲染有魂多了