NVIDIA 发布了一款音乐生成人工智能模型:Fugatto。通过简单的文本提示或音频输入,用户可以创作全新的声音景观或修改已有的声音元素。例如,用户可以通过文字提示创作音乐片段、调整语音的口音与情绪、添加或删除乐器,甚至生成从未听过的独特声音效果。
Fugatto 提供对声音生成与转换的精细化控制,用户可以结合多种艺术属性,例如调整语音的情感和口音强度,或创作动态变化的声音场景。
1. 音频生成与转换的多任务支持
- **文本生成音频:**根据用户的文本提示,生成符合描述的音乐、语音或声音效果。例如,一段带有特定情感或风格的音乐。
- **音频转换:**支持对现有音频的修改,例如添加或删除乐器、调整语音的情感、口音或语调。
2. 高度个性化的艺术控制
- **组合式指令 (ComposableART):**允许用户结合多种属性,如“用法国口音讲述悲伤的故事”,并精确调整这些属性的强度。
- **时序插值 (Temporal Interpolation):**生成动态变化的声音,例如模拟雨声由近及远或逐渐转变为清晨鸟鸣。
3. 创作从未听过的声音
- Fugatto 不局限于重现训练数据,支持生成全新且未曾存在的声音效果,例如“让小号发出狗吠声”或“萨克斯风模仿猫叫”。
4. 多语言与多口音支持
- **多语言生成:**支持不同语言的文本到语音生成,适用于跨区域或多语言场景。
- **多口音调整:**轻松为语音添加不同地区的口音,例如美国、法国或中国口音。
5. 动态音频与场景生成
- 能够根据用户的描述生成完整的动态音频场景。例如,从风暴中逐渐过渡到宁静的清晨,用音频描绘情感变化。
6. 灵活的应用场景
- **音乐创作:**为音乐人提供快速创意原型工具,支持风格、音色、情感的自由切换。
- **广告配音:**调整现有广告的语音口音或情感,快速适应不同市场需求。
- **语言学习:**提供个性化的教学语音,例如以家人或朋友的语音讲解。
- **游戏开发:**实时调整游戏音效,适应动态场景需求,或从文本生成全新音频素材。
7. 高品质音频生成
- 通过少量的额外数据微调,Fugatto 能够执行未曾训练过的新任务,例如从文本提示生成高质量的歌声。
官方博客:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/