根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

通过语音音频输入来驱动肖像图像生成动画视频,也就是一段语音+个人图像生成会说话唱歌的视频。

研究团队提出了一种创新的基于扩散模型的层次化音频驱动视觉合成方法。这个方法的目的是提高语音输入与生成的动画之间的对齐精度,包括嘴唇、表情和姿态的同步。

主要功能

  1. 虚拟角色动画生成
    • 通过语音音频输入生成逼真、动态的虚拟角色动画。
    • 实现了虚拟角色的口型、表情和姿态的精确同步。.

  2. 真实角色动画生成
    • 应用于真实人物的语音驱动动画生成。
    • 生成的动画能准确反映真实人物的表情和动作变化。

  3. 多种运动控制
    • 提供对角色表情、姿态和嘴唇运动的精确控制。
    • 支持多种表情和姿态的自适应控制,增强动画的多样性和真实性。
      .

  4. Support authors and subscribe to content

    This is premium stuff. Subscribe to read the entire article.

    Subscribe

    Gain access to all our Premium contents.
    More than 100+ articles.
退出移动版