Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆

Fish Audio 发布高级语音处理模型Fish Agent V0.1 3B，它是一个语音到语音模型，它可以高效、精确地生成和处理语音，尤其适合模拟或克隆不同的声音。

该模型是在 Qwen-2.5-3B-Instruct 的基础上继续预训练完成的，涵盖了 2000 亿语音和文本令牌。

Fish Agent V0.1 3B 的一大特点是无语义令牌架构。这意味着它不像传统模型那样需要先把语音转换成复杂的语义编码（如 Whisper 和 CosyVoice 使用的编码），而是直接在声音层面上处理和生成语音。这种直接处理方式让模型的反应速度更快，结构更简单，效率也更高。

Fish Agent V0.1 3B 可以快速、自然地生成高质量语音，同时减少了传统模型的复杂步骤，从而实现“即时”语音克隆和文本到语音转换。这让它更适合需要实时语音生成的应用，比如语音助手、自动客服、以及各种需要快速语音反馈的场景。

语音到语音生成：该模型能够捕捉并生成自然环境音频，适用于高精度语音生成任务，提供更真实的音频表现。
文本到语音转换：Fish Agent V0.1 3B 也是一款先进的 TTS 模型，支持将文本内容转换为高质量的语音输出。
多语言支持：该模型支持英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言，具备广泛的应用潜力。
大规模训练数据：模型基于约 70 万小时的多语言音频数据训练，使其在处理多种语言和语境时具备出色的适应性。
创新架构：Fish Agent V0.1 3B 采用了无语义令牌的架构，不需要传统的语义编码/解码器。这种设计提升了处理效率，同时可以减少对额外模块的依赖，使生成效果更稳定和高效。

同时Fish Audio 发布了Fish Speech 1.4 技术报告。

Fish-Speech 提出了一个具有多语言和多情感稳定性的创新 TTS 解决方案，通过快-慢双重自回归架构结合非字母-音素（non-G2P）架构，实现了跨语言和情感多样的高质量语音合成。