Fish Speech 是一个全新的文本转语音 (TTS) 解决方案,该项目由fishaudio开发。当前模型使用约十五万小时三语数据训练,对中文支持非常的完美。
能够熟练处理和生成中文、日语和英语的语音,语言处理能力接近人类水平,并且声音表现形式丰富多变。作为一个仅有亿级参数的模型,Fish Speech 设计高效轻量,用户可以在个人设备上轻松运行和微调,成为您的私人语音助手。
设计高效轻量,用户可以在个人设备上轻松运行和调整模型性能。
Fish Speech 支持多种不同的语音生成模型,包括但不限于:
- VITS2:一种基于变分推理的文本到语音模型。
- Bert-VITS2:结合BERT模型的变分推理文本到语音模型。
- GPT VITS:结合GPT模型的文本到语音模型。
- MQTTS:基于量化技术的文本到语音模型。
- GPT Fast:快速生成语音的GPT模型。
- GPT-SoVITS:结合GPT和SoVITS技术的文本到语音模型。
Fish Speech 提供了一个在线演示�