阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音

FunAudioLLM 是阿里巴巴开发的一组语音处理模型,旨在改善人类与大语言模型之间的语音交互。它由两个主要模型构成:SenseVoice 和 CosyVoice。

通过 SenseVoice 和 CosyVoice 的结合,FunAudioLLM 提供了全面的语音理解和生成功能,使得人与大语言模型之间的语音交互更加自然和丰富。

SenseVoice 和 CosyVoice 的主要功能

SenseVoice 主要专注于多语言语音识别、情感识别和音频事件检测,提供高精度、低延迟的语音处理能力。CosyVoice 则侧重于自然语音生成和控制,支持多种语言、音色和说话风格的生成,能够实现零样本学习和细粒度的语音控制。这两者结合,使得 FunAudioLLM 能够在多种应用场景下提供卓越的语音交互体验。

SenseVoice 主要功能
  1. 多语言语音识别
    • SenseVoice-Small:支持中文、英语、粤语、日语和韩语五种语言,采用非自回归端到端架构,识别延迟极低,比 Whisper-small 快5倍,比 Whisper-large 快15倍。
    • SenseVoice-Large:支持超过50种语言的高精度语音识别。
  2. 情感识别
    • 识别语音中的情感,如快乐、悲伤、愤怒等情感,通过检测语音的音调、节奏和语调变化来实现。
  3. 音频事件检测
    • 检测语音中的特殊事件,如音乐、笑声、掌声等,并能预测事件的开始和结束时间。
    • SenseVoice-Small 能够检测各种人机交互事件,如背景音乐、掌声、笑声、哭声、咳嗽和打喷嚏等。
  4. 语言识别
    • 能够识别说话者所使用的语言,确保语音识别的准确性和上下文理解。
  5. 逆文本规范化(Inverse Text Normalization, ITN)
    • 提供带标点和格式化的转录结果,提高转录文本的可读性和准确性。

主要特点

CosyVoice 主要功能
  1. 语音生成
    • 支持多语言语音生成,包括中文、英语、粤语、日语和韩语。
    • 能够生成自然且情感丰富的语音,支持不同的说话风格和情感表达。
  2. 多样化的语音控制
    • 音色控制:可以精确控制生成语音的音色,使其与特定说话者的声音匹配。
    • 说话风格控制:通过文本指令控制语音的说话风格,如情感、语速、音高等。
  3. 零样本学习
    • 通过仅几秒钟的音频样本进行声音克隆,无需额外训练数据。
    • 支持跨语言的声音克隆,实现用一种语言的声音说另一种语言的话。
  4. 细粒度的副语言特征控制
    • 支持插入笑声、呼吸声、语气词等细微的语音特征,使生成的语音更加自然和生动。
    • 文本指令控制:可以通过文本指令精确控制说话人的身份、情感和说话风格。
  5. 多角色对话
    • 能够生成多角色的对话语音,适用于互动播客、情感聊天等场景。

FunAudioLLM 的应用

1. 语音到语音翻译 (Speech-to-Speech Translation)

FunAudioLLM 可以实现高质量的语音到语音翻译。具体过程如下:

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
退出移动版