VLOGGER：基于文本和音频驱动，从单张照片生成会说话的人类视频

VLOGGER是一个利用文本和音频驱动的方法，可以从人的单张照片生成说话的人视频。

给定一张人的单张输入图像和一个音频样本，VLOGGER能够生成该人物讲话和生动移动的逼真且时间连贯的视频。与之前的方法不同，VLOGGER能够生成头部运动、注视、眨眼、嘴唇运动以及不同于之前方法的上身和手势动作，进一步推进了音频驱动合成的步骤。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员