OpenAI发布其语音生成模型：Voice Engine 15秒克隆你的声音

OpenA分享了关于Voice Engine的初步见解和结果，这是一个可以根据文本输入和一个15秒的音频样本生成接近原始说话者声音的自然听起来的语音的模型。通过这个小规模的预览，OpenAI表明即便是一个小型模型和一个15秒的样本也能创造出具有情感和真实感的声音。

主要功能 自然听起来的语音生成 ：利用单个15秒的音频样本，Voice Engine能够创造出既情感丰富又真实的语音，显著提升合成语音的自然度和真实感。

支持多种用途 ：从教育援助、内容翻译、提高偏远地区服务质量，到支持非语言人士和帮助患者恢复声音，Voice Engine的应用场景广泛，跨越多个行业。

语言和口音的保留 ：在内容翻译时，Voice Engine能够保留原始发言者的本地口音，使得翻译后的语音不仅流利还能保持原声音的特色。

多语种支持 ：能够生成多种语言的语音输出，适应全球化需求，特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说，这一特点尤为重要。

持非语言人士： 使用Voice Engine技术来辅助那些无法通过传统方式进行语言表达的个体。这包括了因为生理或神经学原因不能说话或说话能力受限的人。通过Voice Engine，可以为这些用户创建合成声音，让他们能够用这些声音来表达自己，即使他们自身无法产生声音。这样的应用可以用于增强沟通能力，特别是在辅助交流（AAC）设备中，为非语言人士提供更个性化和自然听起来的声音选项，从而改善他们的交流体验和生活质量。

帮助患者恢复声音： 对于那些因为意外伤害、疾病（如癌症治疗后的喉部伤害）或其他退行性疾病（如帕金森病、多发性硬化症）导致失声或声音严重受损的患者，Voice Engine可以利用他们过去的录音——即便只有很短的一段音频样本——来重建他们的声音。这意味着，即使患者的自然说话能力受损，他们也有可能通过技术手段“重新获得”自己的声音，使用这个合成声音与他人沟通。这对于那些声音是他们身份和个性重要组成部分的人来说尤其有意义

安全性和隐私保护 ：考虑到生成类似人声的技术可能被滥用的风险，OpenAI对Voice Engine实施了严格的使用政策和安全措施，包括水印技术以追踪任何由Voice Engine生成的音频的来源，以及主动监控其使用方式。

Voice Engine最初于2022年底开发，并已用于支持文本到语音API中可用的预设声音 text-to-speech API 以及 ChatGPT Voice and Read Aloud . 同时，鉴于合成声音可能被滥用的潜在风险，OpenAI正采取谨慎和明智的方法来考虑更广泛的发布。他们希望启动关于合成声音负责任部署的对话，并探讨社会如何适应这些新能力。 在OpenAI博客中提到的Voice Engine的应用案例展示了该技术在不同领域的多样性和潜力：

1. 教育辅助

Age of Learning ：一家专注于儿童学术成功的教育技术公司，使用Voice Engine生成预先编写的配音内容。他们还利用Voice Engine和GPT-4创建实时、个性化的响应来与学生互动，为更广泛的受众创造更多内容。 2. 内容翻译和全球触及

HeyGen ：一个AI视觉故事讲述平台，与企业客户合作创建定制的、类人的虚拟形象。他们使用Voice Engine进行视频翻译，将讲话者的声音翻译成多种语言，以触及全球受众。当用于翻译时，Voice Engine能够保留原始发言者的本地口音，为内容增添独特性。 3. 提高基本服务的全球可及性

Dimagi ：开发工具，以支持社区健康工作者提供各种基本服务，如对哺乳期母亲的咨询。Dimagi使用Voice Engine和GPT-4以每位工作者的首选语言提供交互式反馈，包括使用斯瓦希里语或更非正式的语言如肯尼亚流行的混合代码语言Sheng，提升远程服务交付的质量。 4. 支持非语言人士

Livox ：一个AI替代交流应用程序，为残疾人提供增强和替代交流（AAC）设备。通过使用Voice Engine，他们能够为非语言人士提供独特且非机械的声音选项，支持多种语言，使用户可以选择最能代表自己的语音，并为多语种用户提供一致的声音体验。 5. 帮助患者恢复声音

The Norman Prince Neurosciences Institute at Lifespan ：这个项目探索AI在临床环境中的应用，他们为突然或因退行性病症导致语音受损的个体提供Voice Engine服务。一个年轻患者因脑血管肿瘤失去流利语言能力，医生们使用她为学校项目录制的视频中的音频恢复了她的声音。 查看演示： https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices