Moshi：实时语音到语音生成 Transformer 开源模型 160毫秒低延迟支持随时打断和情感表达

Moshi 是一个多流（multi-stream）的实时语音到语音生成 Transformer 模型，支持全双工语音对话。它的主要特点是可以同时进行语音输入和输出（全双工），能够处理复杂的对话场景，包括重叠的语音、打断和情感表达等非语言信息。

这意味着它可以同时听和说，旨在解决传统对话系统中的一些问题，如延迟、非语言信息的丢失（例如情绪）以及对话轮次的僵化结构。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员