OpenVoice:轻松克隆任何声音 用多种语言说话 并可控制情感口音

由MyShell TTS开发。它能够仅使用一小段参考发言者的音频片段来复制其声音,然后能生成多种语言的语音。

OpenVoice能对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,同时能够复制参考发言者的音色。

支持的语言包括英语(英国、美国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。

主要功能:

OpenVoice V2的新增特性:

技术方法:

  1. 声音样式和语言的解耦设计:
    • OpenVoice 的设计哲学是将声音的不同特性(如音色、风格、语言)进行解耦,使得可以独立控制各个参数,从而达到灵活调整的目的。这一设计减少了模型的大小和复杂性,提高了操作的灵活性和推断速度。
  2. 基础发音者TTS模型与音色转换器:
    • 基础发音者TTS模型:这一模型允许对风格参数进行控制,如情绪和口音等。它是一个单发音者或多发音者模型,可以通过改变输入的风格和语言嵌入来输出不同风格的语音。
    • 音色转换器:这一组件采用编码器-解码器结构,负责将基础发音者的音色转换为参考发音者的音色。通过这种方式,即使基础声音与目标声音风格不同,也能保持原有风格的同时改变音色。
  3. 训练策略和数据处理:
    • 在训练过程中,采用了大量的多语种、多风格的音频样本。通过这些样本,模型学习如何准确复制音色并控制声音的不同风格。使用特定的损失函数来确保在保留风格的同时去除或转换音色,从而实现高质量的声音生成。

网站:http://research.myshell.ai/open-voice

GitHub:http://github.com/myshell-ai/OpenVoice

技术报告:https://arxiv.org/pdf/2312.01479.pdf

在线演示:http://lepton.ai/playground/openvoice

创建自己的语音机器人:http://myshell.ai

退出移动版