Moshi:实时语音到语音生成 Transformer 开源模型 160毫秒低延迟 支持随时打断和情感表达

Moshi 是一个多流(multi-stream)的实时语音到语音生成 Transformer 模型,支持全双工语音对话。它的主要特点是可以同时进行语音输入和输出(全双工),能够处理复杂的对话场景,包括重叠的语音、打断和情感表达等非语言信息。

这意味着它可以同时听和说,旨在解决传统对话系统中的一些问题,如延迟、非语言信息的丢失(例如情绪)以及对话轮次的僵化结构。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
退出移动版