SpeechGPT2：一个端到端的语音对话语言模型能够感知和表达情感

SpeechGPT2 是由复旦大学 计算机学院开发的 一个端到端的语音对话语言模型，类似于 GPT-4o。 它能够感知和表达情感，并根据上下文和人类指令提供多种风格的语音响应，如说唱、戏剧、机器人、搞笑和低语等。 为了处理冗长的语音序列，SpeechGPT2 使用了一种超低比特率的语音编解码器 (750bps)，能够建模语义和声学信息。 预训练数据包括 超过10万小时的学术和野外收集的语音数据 ，这些数据涵盖了丰富的语音场景和风格。 该模型使用多输入多输出语言模型 (MIMO-LM)，目前仍为轮流对话系统。团队正在开发实时全双工版本并已取得一些进展。 SpeechGPT2 是在有限资源下的技术探索，由于计算和数据资源的限制，它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。团队计划未来开源技术报告、代码和模型权重。 技术细节 语音编解码器 语义与声学信息建模 ：SpeechGPT2 使用超低比特率的语音编解码器，能够同时建模语义和声学信息。这种编解码器的比特率为 750bps，采用 25hz 的 RVQ3。 模型架构 MIMO-LM（多输入多输出语言模型） ：模型架构基于多输入多输出的语言模型，能够处理多种输入和生成多种输出。 模型初始化 ：从一个包含70亿参数的文本语言模型（7B文本LLM）初始化。 推理过程 自回归解码 ：生成一秒语音需要进行25步的自回归解码。每一步解码都基于之前生成的内容进行推断，逐步生成完整的语音。 训练数据 预训练数据 语音数据 ：预训练数据包括超过10万小时的学术和野外收集的语音数据，这些数据涵盖了丰富的语音场景和风格。 风格描述 ：每对语音文本对都包含细粒度的风格描述，确保模型能够生成多种风格的语音响应。 对话数据 数据点数量 ：对话数据集包含10万个数据点。 多轮对话 ：数据集中包含高质量的多轮对话语音数据。 情感对话 ：多轮情感语音对话数据，帮助模型学习如何在对话中表达和理解情感。 风格控制 ：多轮语音风格控制对话数据，使模型能够在对话中根据需要调整语音风格。 未来计划 实时全双工大型语言模型 ：团队正在开发实时全双工版本，以实现更自然流畅的对话体验。 流式管道 ：计划实现编解码器和语言模型的流式处理管道，以提高推理效率和响应速度。 数据和模型规模扩展 ：未来计划扩大训练数据和模型规模，以进一步提高模型的性能和鲁棒性。 关键技术挑战 噪声鲁棒性 ：在嘈杂环境中保持高质量的语音理解和生成能力。 音质稳定性 ：确保在生成不同风格和情感的语音时，保持一致的音质和自然度。 资源限制 ：在有限的计算和数据资源下，优化模型性能和效率。 演示效果 Drama 戏剧

[video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/drama.mp4"][/video] Rap 1 说唱

[video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/rap1.mp4"][/video] Rap 2 说唱

[video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/rap2.mp4"][/video] Whisper 低语

[video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/whispering.mp4"][/video] Robot 机器人

[video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/robot.mp4"][/video] Funny 有趣

[video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/funny.mp4"][/video] Emotional 1 情感

[video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/emotion1.mp4"][/video] Emotional 2 情感

[video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/emotion2.mp4"][/video] Shout 呐喊

[video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/shout.mp4"][/video] Conversational 对话

[video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/conversational.mp4"][/video] 项目地址 ： https://0nutation.github.io/SpeechGPT2.github.io/