传统的音频驱动肖像动画生成方法通常需要手动设定运动模板,这在生成动态肖像时可能限制其灵活性和自然性。Loopy 针对这一问题,提出了一种去除空间模板约束的生成方法,只需要音频输入就可以生成高质量的肖像动画,并且生成头部和面部的自然动作,如表情变化、头部移动等。
通过设计的跨片段和片段内的时间模块以及音频到潜变量的转换模块,Loopy 能够从音频中学习长时间的运动信息,生成自然的运动模式。该方法摒弃了现有技术中手动指定空间运动模板的需求,生成更具生命感和高质量的动态肖像。模型不仅支持各种音频和视觉风格,还能够生成诸如叹息、情感驱动的眉毛和眼睛动作以及自然的头部运动等细节。