Sonic 是一个快速、超逼真的语音生成模型,专为实时互动语音而设计,基于下一代状态空间模型(State Space Model)构建。由Cartesia AI开发,实现了市场上最快的文本到语音转换,端到端延迟小于200毫秒,模型延迟135毫秒,提供给用户实时推理。可以用来构建高质量、实时的语音体验,提供多样化的语音库、即时语音克隆、语音混合以及速度和情感控制的语音设计功能。
- 极快的速度:延迟仅为135毫秒,确保实时响应。
- 高吞吐量:使用首创的状态空间模型推理栈,支持高并发和低成本推理。
- 超逼真语音:基于全新的状态空间模型架构,生成富有情感和表达力的真人语音。
- 零样本语音克隆:只需10秒的录音即可匹配语调、抑扬顿挫和声线特征。
- 可控参数:用户可以调整音高、语速、情感、发音和速度,实现个性化语音设计。
功能特点
Sonic 是 Cartesia 最新发布的低延迟语音生成模型,具有以下显著功能和特点: