根据单张图像和音频输入生成唱歌和说话视频，并能控制人物表情和姿态

通过语音音频输入来驱动肖像图像生成动画视频，也就是一段语音+个人图像生成会说话唱歌的视频。研究团队提出了一种 … 继续阅读根据单张图像和音频输入生成唱歌和说话视频，并能控制人物表情和姿态