微软对Azure AI语音服务的Personal Voice功能进行了升级,引入了新的零样本学习(zero-shot)的文本到语音(TTS)模型。与初始模型相比,这些新模型提高了合成语音的自然度,并更好地模仿了提示语音中的语音特征。
与为一般目的设计的语音相比,这些为对话优化的语音在读取对话和非正式文本时听起来更自然、更吸引人。它们甚至包括笑声和填充停顿等插入语,为虚拟对话增添了人性化的触感。
微软提供了超过400种神经语音,涵盖140多种语言和地区。这些文本到语音(TTS)语音可以快速为应用添加朗读功能,使其设计更加无障碍,或为聊天机器人赋予声音,提供更丰富的对话体验。此外,通过自定义神经语音功能,您可以轻松为您的业务创建品牌声音。
功能特点
-
快速个性化语音创建:用户只需提供一小段自己的语音样本,Zero-shot TTS模型就能快速创建出能模仿该用户独特语音特征的AI语音。这一过程仅需几秒钟,极大简化了个性化语音的生成流程。
-
高度自然的语音输出:与早期的TTS模型相比,Zero-shot TTS模型生成的语音更加自然、流畅,并且能更好地捕捉到人类语音的细微差别,如语调、节奏和情感表达,使合成语音更加生动、接近真人。
-
支持多种语言和口音:这些模型支持生成100种以上不同语言的语音输出,甚至可以处理不同的地区口音,让用户以自己的声音“说出”多种语言,适用于多语种的全球应用场景。
-
用途广泛:Zero-shot TTS模型不仅可用于个人化的应用,如聊天机器人、个人助理或语音驱动的内容创建,也适合需要跨语种配音的娱乐、教育和媒体产业,比如用原声演员的声音为影视作品配音。
-
模型选择的灵活性:Azure AI 语音服务提供了多种Zero-shot TTS模型,以适应不同的应用场景需求。例如,“DragonLatestNeural”模型更注重语音的自然度和表现力,适合内容创作;而“PhoenixLatestNeural”模型则在保持发音准确性和低延迟的同时,增强了声音的相似度,适用于实时交互场景。
-
负责任的AI使用:鉴于合成语音技术可能被误用的风险,微软对Zero-shot TTS模型的使用实施了严格的指导原则和访问控制,确保技术的负责任部署和使用,保护个人和社会的权利。
应用场景包括:
- 语音助手:创建个性化的语音助手体验。用户现在可以使用自己的声音,而不是依赖通用的声音,实现真正独特的体验。
- 游戏:为玩家提供沉浸式体验,允许他们完全以自己独特的声音扮演角色。
- 语言配音:扩展全球影响力,用演讲者的母语为内容配音,为观众提供无缝且愉悦的体验,无论他们位于何处。
- 媒体和娱乐:为故事、有声书、播客、视频等创建易于使用的个人语音,使内容比以往任何时候都更加贴近和沉浸。
- 语音翻译:打破语言障碍,改善沟通。允许会话参与者以他们真实的声音被听到,用各种语言进行。
详细信息:Zero-shot TTS模型
9种更真实的AI语音
微软还发布了9种更真实的AI语音,现在已经普遍可用,这些语音被优化用于对话,覆盖了多种语言,旨在为各种业务场景提供更好的选择和多样性。这些真实的语音非常适合任何需要逼真语音交云的应用,包括聊天机器人、语音助手、游戏、电子学习、娱乐等。
针对对话优化的语音在阅读对话和非正式文本时听起来更自然、更引人入胜,甚至包括笑声和填充暂停等插入语,为您的虚拟对话增添人性化的触感。
例如,Yellow.AI就在客户支持场景中使用了Ava语音。
新推出的多语言语音包括了针对对话风格的优化,扩展了微软在91种语言及其变种中传达内容的能力,体现了微软克服语言障碍、促进全球交流更加包容和无障碍的坚定承诺。
新的通用可用(GA)语音包括:
- en-US-AvaMultilingualNeural
- en-US-AndrewMultilingualNeural
- en-US-EmmaMultilingualNeural
- en-US-BrianMultilingualNeural
- De-DE-FlorianMultilingualNeural去语言化–弗洛里亚多语种神经网络
- De-DE-SeraphinaMultilingualNeuralDe-DE-Seraphina 多语种神经网络
- Fr-FR-RemyMultilingualNeuralFr-FR-Remy 多语言神经网络
- Fr-FR-VivienneMultilingualNeural法国-法国-维维安多语种神经网络
- zh-CN-XiaoxiaoMultiligualNeural
与为一般目的设计的语音相比,这些为对话优化的语音在读取对话和非正式文本时听起来更自然、更吸引人。它们甚至包括笑声和填充停顿等插入语,为虚拟对话增添了人性化的触感。
微软还提供了超过400种神经语音,涵盖140多种语言和地区。