由MyShell TTS开发。它能够仅使用一小段参考发言者的音频片段来复制其声音,然后能生成多种语言的语音。
OpenVoice能对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,同时能够复制参考发言者的音色。
支持的语言包括英语(英国、美国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。
主要功能:
- 准确的音色克隆:OpenVoice能够精确地克隆参考音色,并在多种语言和口音中生成语音。
- 灵活的声音风格控制:允许用户对声音的情绪、口音、节奏、停顿和语调进行详细的调整,提供个性化的声音输出。
- 零样本跨语言声音克隆:OpenVoice 实现了对大规模多语言数据集之外的语言进行零样本声音克隆,即使这些语言未在训练集中出现也能进行声音复制。
- 高效的计算性能:相比于市场上现有的商业API,OpenVoice 在保持高性能的同时,计算成本大大降低。
OpenVoice V2的新增特性:
- 更好的音频质量: 采用新的训练策略以提升音频质量。
- 原生多语言支持: V2 版本原生支持英语、西班牙语、法语、中文、日语和韩语。
- 集成 MeloTTS: V2 版本引入了 MeloTTS 技术,通过
pip install git+https://github.com/myshell-ai/MeloTTS.git
进行安装,这是一个新的文本到语音转换系统,增强了声音的自然度和表现力。 - 免费商业使用: 自2024年4月起,V1和V2版本均以 MIT 许可证发布,支持商业和研究用途的免费使用。
技术方法:
- 声音样式和语言的解耦设计:
- OpenVoice 的设计哲学是将声音的不同特性(如音色、风格、语言)进行解耦,使得可以独立控制各个参数,从而达到灵活调整的目的。这一设计减少了模型的大小和复杂性,提高了操作的灵活性和推断速度。
- 基础发音者TTS模型与音色转换器:
- 基础发音者TTS模型:这一模型允许对风格参数进行控制,如情绪和口音等。它是一个单发音者或多发音者模型,可以通过改变输入的风格和语言嵌入来输出不同风格的语音。
- 音色转换器:这一组件采用编码器-解码器结构,负责将基础发音者的音色转换为参考发音者的音色。通过这种方式,即使基础声音与目标声音风格不同,也能保持原有风格的同时改变音色。
- 训练策略和数据处理:
- 在训练过程中,采用了大量的多语种、多风格的音频样本。通过这些样本,模型学习如何准确复制音色并控制声音的不同风格。使用特定的损失函数来确保在保留风格的同时去除或转换音色,从而实现高质量的声音生成。
网站:http://research.myshell.ai/open-voice
GitHub:http://github.com/myshell-ai/OpenVoice
技术报告:https://arxiv.org/pdf/2312.01479.pdf
在线演示:http://lepton.ai/playground/openvoice
创建自己的语音机器人:http://myshell.ai