Seed-TTS:由字节跳动开发的几乎完美接近人类的文本到语音(TTS)模型
该模型能够生成高质量、几乎无法与人类声音无法区分的语音。
无需训练的情况下,只需要简短的语音片段即可克隆生成高度自然且富有表现力的语音。
完全能否胜任读小说、配音等任务
Seed-TTS 还提供了对各种语音属性的高级控制能力,包括但不限于情感、语调、说话风格等。
还可以通过编辑文本来编辑生成的语音。
同时支持不同语言间的语音转换,帮助跨语言沟通和交流。
Seed-TTS 在多个实验中表现优异,其生成的语音在自然度和说话者相似度上接近人类语音。