Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型

Mini-Omni是一种多模态大型语言模型，具备端到端的实时语音输入和输出能力。与传统依赖于文本转语音（TTS）系统的模型不同，Mini-Omni能够同时处理语音输入和生成语音输出，完全消除了文本生成和语音合成之间的延迟问题。

Mini-Omni备实时语音输入和输出的能力，专为语音对话而设计。其关键特性在于支持“边思考边说话”，即在模型生成语音输出的同时进行思考和推理，提供流式音频输出，减少了语音生成的延迟。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员