微软对Azure AI语音服务升级发布9种更真实的AI语音

by 小互
8月 ago

微软对Azure AI语音服务的Personal Voice功能进行了升级，引入了新的零样本学习（zero-shot）的文本到语音（TTS）模型。与初始模型相比，这些新模型提高了合成语音的自然度，并更好地模仿了提示语音中的语音特征。

与为一般目的设计的语音相比，这些为对话优化的语音在读取对话和非正式文本时听起来更自然、更吸引人。它们甚至包括笑声和填充停顿等插入语，为虚拟对话增添了人性化的触感。

微软提供了超过400种神经语音，涵盖140多种语言和地区。这些文本到语音（TTS）语音可以快速为应用添加朗读功能，使其设计更加无障碍，或为聊天机器人赋予声音，提供更丰富的对话体验。此外，通过自定义神经语音功能，您可以轻松为您的业务创建品牌声音。

功能特点

快速个性化语音创建：用户只需提供一小段自己的语音样本，Zero-shot TTS模型就能快速创建出能模仿该用户独特语音特征的AI语音。这一过程仅需几秒钟，极大简化了个性化语音的生成流程。
高度自然的语音输出：与早期的TTS模型相比，Zero-shot TTS模型生成的语音更加自然、流畅，并且能更好地捕捉到人类语音的细微差别，如语调、节奏和情感表达，使合成语音更加生动、接近真人。
支持多种语言和口音：这些模型支持生成100种以上不同语言的语音输出，甚至可以处理不同的地区口音，让用户以自己的声音“说出”多种语言，适用于多语种的全球应用场景。
用途广泛：Zero-shot TTS模型不仅可用于个人化的应用，如聊天机器人、个人助理或语音驱动的内容创建，也适合需要跨语种配音的娱乐、教育和媒体产业，比如用原声演员的声音为影视作品配音。
模型选择的灵活性：Azure AI 语音服务提供了多种Zero-shot TTS模型，以适应不同的应用场景需求。例如，“DragonLatestNeural”模型更注重语音的自然度和表现力，适合内容创作；而“PhoenixLatestNeural”模型则在保持发音准确性和低延迟的同时，增强了声音的相似度，适用于实时交互场景。
负责任的AI使用：鉴于合成语音技术可能被误用的风险，微软对Zero-shot TTS模型的使用实施了严格的指导原则和访问控制，确保技术的负责任部署和使用，保护个人和社会的权利。

应用场景包括：

语音助手：创建个性化的语音助手体验。用户现在可以使用自己的声音，而不是依赖通用的声音，实现真正独特的体验。
游戏：为玩家提供沉浸式体验，允许他们完全以自己独特的声音扮演角色。
语言配音：扩展全球影响力，用演讲者的母语为内容配音，为观众提供无缝且愉悦的体验，无论他们位于何处。
媒体和娱乐：为故事、有声书、播客、视频等创建易于使用的个人语音，使内容比以往任何时候都更加贴近和沉浸。
语音翻译：打破语言障碍，改善沟通。允许会话参与者以他们真实的声音被听到，用各种语言进行。

详细信息：Zero-shot TTS模型

9种更真实的AI语音

微软还发布了9种更真实的AI语音，现在已经普遍可用，这些语音被优化用于对话，覆盖了多种语言，旨在为各种业务场景提供更好的选择和多样性。这些真实的语音非常适合任何需要逼真语音交云的应用，包括聊天机器人、语音助手、游戏、电子学习、娱乐等。

针对对话优化的语音在阅读对话和非正式文本时听起来更自然、更引人入胜，甚至包括笑声和填充暂停等插入语，为您的虚拟对话增添人性化的触感。

例如，Yellow.AI就在客户支持场景中使用了Ava语音。

新推出的多语言语音包括了针对对话风格的优化，扩展了微软在91种语言及其变种中传达内容的能力，体现了微软克服语言障碍、促进全球交流更加包容和无障碍的坚定承诺。

新的通用可用（GA）语音包括：

en-US-AvaMultilingualNeural
en-US-AndrewMultilingualNeural
en-US-EmmaMultilingualNeural
en-US-BrianMultilingualNeural
De-DE-FlorianMultilingualNeural去语言化–弗洛里亚多语种神经网络
De-DE-SeraphinaMultilingualNeuralDe-DE-Seraphina 多语种神经网络
Fr-FR-RemyMultilingualNeuralFr-FR-Remy 多语言神经网络
Fr-FR-VivienneMultilingualNeural法国-法国-维维安多语种神经网络
zh-CN-XiaoxiaoMultiligualNeural

微软还提供了超过400种神经语音，涵盖140多种语言和地区。

查看详细介绍以及演示效果

在线语音库

更新体验：https://ai.azure.com/explore/speech

Categories: AI 工具

功能特点

应用场景包括：

9种更真实的AI语音

Related Content

GetPickle AI是一款革新虚拟会议的AI工具 让你的替身帮你开会 你去干别的

Comfyui_Object_Migration：一致性换衣模型和工作流 实物衣服 一键穿上

ElevenLabs 推出构建语言对话AI代理的功能 可使用其语音模型接入AI模型

Stripe 推出 Stripe Agent Toolkit：让 AI 代理能自动进行支付 帮你购物、订机票等

Mistral AI 发布了全新的 Pixtral Large 开源模型 超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet

GetPickle AI是一款革新虚拟会议的AI工具让你的替身帮你开会你去干别的

Comfyui_Object_Migration：一致性换衣模型和工作流实物衣服一键穿上

ElevenLabs 推出构建语言对话AI代理的功能可使用其语音模型接入AI模型

Stripe 推出 Stripe Agent Toolkit：让 AI 代理能自动进行支付帮你购物、订机票等

Mistral AI 发布了全新的 Pixtral Large 开源模型超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet