Emilia 是一个广泛的开源多语言数据集,用于语音生成,包含六种语言的高质量语音数据。这些数据来自各种视频平台和播客,涵盖了脱口秀、访谈、辩论、体育解说和有声书等多种内容类型,确保数据集捕捉到各种真实的人类说话风格。
- 多语言数据: 数据集包括六种语言的语音数据。
- 高质量: 音频录音为高质量的 .mp3 文件,并附有相应的文本转录。
- 大规模: 数据集包含超过 101,000 小时的语音数据。
- 开源预处理: 用户可以使用 Emilia-Pipe 预处理管道来处理原始音频数据并重建数据集,或者预处理自己的语音数据。