Google DeepMind 公布其NotebookLM背后的创新音频生成技术 使 AI 能够生成更加自然的对话

DeepMind 公布其正在开发一套创新的音频生成技术细节,也就是NotebookLM背后使用的语音技术。使 AI 能够生成更加自然的对话高质量的音频。这些技术不仅提升了语音助手的交互性,还帮助多种应用在语音合成和对话生成上取得更大进展。

1. 核心音频生成技术

举例

2. 最新的音频生成技术

动画展示了语音生成模型如何自回归生成音频标记流,并将其解码回由两个说话者对话组成的波形。

3. 多层次的音频压缩与处理

举例

4. 训练方法和数据集

5. 模型的潜在应用

原文:https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation

退出移动版