Sonic：基于状态空间模型的低延迟实时推理语音生成模型

by 小互
6月 ago

Sonic 是一个快速、超逼真的语音生成模型，专为实时互动语音而设计，基于下一代状态空间模型（State Space Model）构建。由Cartesia AI开发，实现了市场上最快的文本到语音转换，端到端延迟小于200毫秒，模型延迟135毫秒，提供给用户实时推理。可以用来构建高质量、实时的语音体验，提供多样化的语音库、即时语音克隆、语音混合以及速度和情感控制的语音设计功能。

极快的速度：延迟仅为135毫秒，确保实时响应。
高吞吐量：使用首创的状态空间模型推理栈，支持高并发和低成本推理。
超逼真语音：基于全新的状态空间模型架构，生成富有情感和表达力的真人语音。
零样本语音克隆：只需10秒的录音即可匹配语调、抑扬顿挫和声线特征。
可控参数：用户可以调整音高、语速、情感、发音和速度，实现个性化语音设计。

功能特点

Sonic 是 Cartesia 最新发布的低延迟语音生成模型，具有以下显著功能和特点：

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员

Categories: AI 项目, XiaoHu.AI日报

功能特点

Support authors and subscribe to content

加入会员

Related Content

Cognition 的 AI工程师 Devin 正式推出 500美金一个月

微软推出炸裂的Copilot Vision 功能 可实时监控你的上网行为 随时提供AI帮助

Humane 发布CosmOS 由人工智能驱动操作系统 专为智能设备和复杂任务设计

DeepMind 发布新一代天气预测 AI 模型：GenCast 可精准预测15天内的天气情况

ElevenLabs 推出对话式AI工具 可在几分钟内为网站、应用或电话中心创建语音代理

微软推出炸裂的Copilot Vision 功能可实时监控你的上网行为随时提供AI帮助

Humane 发布CosmOS 由人工智能驱动操作系统专为智能设备和复杂任务设计

ElevenLabs 推出对话式AI工具可在几分钟内为网站、应用或电话中心创建语音代理