Sonic:基于状态空间模型的低延迟实时推理语音生成模型

Sonic 是一个快速、超逼真的语音生成模型,专为实时互动语音而设计,基于下一代状态空间模型(State Space Model)构建。由Cartesia AI开发,实现了市场上最快的文本到语音转换,端到端延迟小于200毫秒,模型延迟135毫秒,提供给用户实时推理。可以用来构建高质量、实时的语音体验,提供多样化的语音库、即时语音克隆、语音混合以及速度和情感控制的语音设计功能。

功能特点

Sonic 是 Cartesia 最新发布的低延迟语音生成模型,具有以下显著功能和特点:

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
退出移动版