Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆

by 小互
2月 ago

Fish Audio 发布高级语音处理模型Fish Agent V0.1 3B，它是一个语音到语音模型，它可以高效、精确地生成和处理语音，尤其适合模拟或克隆不同的声音。

该模型是在 Qwen-2.5-3B-Instruct 的基础上继续预训练完成的，涵盖了 2000 亿语音和文本令牌。

端到端架构：采用无语义层的真正端到端（E2E）架构。
零样本语音克隆：支持无需训练即可实现语音克隆。
精简的 3B 参数：使用 30 亿参数，便于开发。
支持文本和音频输入：灵活的多输入方式。
超快响应时间：仅需 200 毫秒的文本到音频转换时间（TTFA）。

Fish Agent V0.1 3B 的一大特点是无语义令牌架构。这意味着它不像传统模型那样需要先把语音转换成复杂的语义编码（如 Whisper 和 CosyVoice 使用的编码），而是直接在声音层面上处理和生成语音。这种直接处理方式让模型的反应速度更快，结构更简单，效率也更高。

Fish Agent V0.1 3B 可以快速、自然地生成高质量语音，同时减少了传统模型的复杂步骤，从而实现“即时”语音克隆和文本到语音转换。这让它更适合需要实时语音生成的应用，比如语音助手、自动客服、以及各种需要快速语音反馈的场景。

支持的语言及数据规模

英语 (en): 约 30 万小时
中文 (zh): 约 30 万小时
德语 (de), 日语 (ja), 法语 (fr), 西班牙语 (es), 韩语 (ko), 阿拉伯语 (ar): 各约 2 万小时

关键特性

语音到语音生成：该模型能够捕捉并生成自然环境音频，适用于高精度语音生成任务，提供更真实的音频表现。
文本到语音转换：Fish Agent V0.1 3B 也是一款先进的 TTS 模型，支持将文本内容转换为高质量的语音输出。
多语言支持：该模型支持英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言，具备广泛的应用潜力。
大规模训练数据：模型基于约 70 万小时的多语言音频数据训练，使其在处理多种语言和语境时具备出色的适应性。
创新架构：Fish Agent V0.1 3B 采用了无语义令牌的架构，不需要传统的语义编码/解码器。这种设计提升了处理效率，同时可以减少对额外模块的依赖，使生成效果更稳定和高效。

同时Fish Audio 发布了Fish Speech 1.4 技术报告。

Fish-Speech 提出了一个具有多语言和多情感稳定性的创新 TTS 解决方案，通过快-慢双重自回归架构结合非字母-音素（non-G2P）架构，实现了跨语言和情感多样的高质量语音合成。

Fish Speech：完美支持中英日语言的开源TTS模型接近人类水平

GitHub: http://github.com/fishaudio/fish-speech
Fish Agent Demo: http://huggingface.co/spaces/fishaudio/fish-agent
模型下载： http://huggingface.co/fishaudio/fish-agent-v0.1-3b
技术报告： http://arxiv.org/abs/2411.01156

目前，Fish Agent 的初步演示版本可以在 fish.audio/demo/live 上体验。

Categories: AI 项目, XiaoHu.AI日报

退出移动版