PersonaTalk:字节跳动开发出可精准给视频进行AI配音的模型 能保持口型同步、说话风格完美匹配

PersonaTalk 是由字节跳动开发的一种专为实现高保真和个性化视觉配音的技术框架,也就是专门用来给视频人物进行AI配音。它不仅能够让人物的嘴巴动作和声音完全同步,还能保持人物的个性特征,比如独特的说话风格和面部细节。

它通过一个基于注意力机制的两阶段系统,在生成与音频同步的嘴部动作的同时,保持说话者独特的个性特征(如说话风格和面部细节)。其目标是解决传统配音技术难以同时确保口型同步个性保留的挑战。

它能做到:
  1. 声音同步嘴型:当你给一个视频加上新的声音时,PersonaTalk可以让人物的嘴巴动作和声音完全匹配,和新的语音说话口型嘴唇一样。
  2. 保留人物特点:在生成新视频时,它会尽量保留人物原本的说话方式、脸型、表情等细节,让视频看起来更加真实和自然。
  3. 适用于不同人物:它不需要大量的数据来单独训练特定的人物,可以适应不同的人物和场景。

PersonaTalk 主要功能

技术方法

模型架构

也就是PersonaTalk 先用AI分析视频中人物的3D脸型,然后再对脸部进行细致的渲染。这样既保证嘴巴动得对,也能保留人物的脸部细节。

PersonaTalk 的技术方法可以分为两大步骤,分别是几何构建面部渲染,每一步都有独特的技术设计来实现高保真和个性化的视觉配音。

1. 几何构建(Style-Aware Geometry Construction)
2. 面部渲染(Dual-Attention Face Rendering)
3. 风格感知的音频编码
4. 双重注意力的面部渲染
4. 基于参考帧的动态选择策略
5. 多任务学习与通用适配

案例展示:

保持口型同步视觉配音,同时保留个人的谈话风格和面部细节

Multilingual Translation 多语言翻译

泰勒斯威夫特

原版英文

翻译成中文视频

翻译成德语

成龙翻译案例

原版英文视频

翻译为日语

翻译为德语

Open Online Courses 开放在线课程

Animation 动画片

和其他项目比较

 

项目地址:https://grisoon.github.io/PersonaTalk/

论文:https://arxiv.org/pdf/2409.05379

退出移动版