Hallo 2:根据单张图像和音频输入能够生成长达一小时的4K分辨率人像视频

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态的模型 Hallo 发布了更新版本Hallo 2.

Hallo2 解决了长时、高分辨率的视频生成问题。它在现有的短时视频生成模型(如 Hallo)基础上进行了多项重要改进,能够生成长达一小时的4K分辨率人像视频,适用于各种人像表情和风格控制。

Hallo2 是目前首个实现长达一小时、4K分辨率的音频驱动人像动画生成模型。通过创新的补丁丢弃、噪声增强和时间对齐等技术,它解决了长时视频生成中的外观漂移和视觉不一致问题,支持灵活的语音与文本控制,生成质量达到业内领先水平。

主要技术改进与功能

  1. 长时视频生成
    • 传统的视频生成方法通常只适用于短时视频(几秒到几分钟),而长时生成会面临外观漂移(即生成的视频中的人物形象与开始不一致)和时间一致性丧失(如表情不连贯或抖动等)的问题。
    • Hallo2 通过创新的条件运动帧增强策略解决了这些问题。具体来说,模型引入了补丁丢弃技术(patch-drop technique),结合高斯噪声增强,来保证视频在长时间生成中的视觉一致性和时间连贯性。

  2. 高分辨率视频生成
    • 生成高清画面也是一个重大挑战,尤其是在4K分辨率下,细节和清晰度要求很高。为了解决这个问题,Hallo2 对潜在空间中的编码进行了矢量量化(vector quantization),同时使用时间对齐技术,确保视频在时间维度上保持一致。
    • 最终,Hallo2 能够生成高达4K分辨率的高质量人像视频,细节和清晰度得到了显著提升。

  3. 多样化的风格控制与表情生成
    • 在传统的音频驱动之外,Hallo2 增加了语义文本标签作为条件输入。这意味着用户不仅可以通过音频控制视频中的人物表情,还可以通过文本输入控制人物的风格和情感表现。
    • 这一功能使得生成的内容更具多样性,能够根据不同的音频和文本提示生成不同风格的人像视频。例如,你可以生成开心、愤怒、忧郁等不同情感下的人像动画。

  4. 视觉一致性与时间连贯性
    • 在长时视频生成中,保持人物外观和表情的一致性是一大挑战。为此,Hallo2 引入了补丁丢弃高斯噪声增强的技术,增强了视觉的一致性。通过这些增强技术,模型能够在时间轴上保持较高的连贯性,避免了人物在视频中的不自然变化或突兀过渡。
    • 这种技术还确保了视频在长时间播放过程中不会出现视觉上的不连贯现象。

技术方法

1. 长时动画生成

问题:长时间生成视频时,常会出现外观漂移(即随着时间推移,生成的视频中人物的外观与最初的参考图像逐渐不同)以及时间一致性问题(即动作不连贯、抖动等现象)。

解决方案

2. 高分辨率增强(4K分辨率)

问题:在生成高分辨率视频时,生成的每一帧需要保持细节,同时跨时间轴保持一致性。

解决方案

3. 文本标签控制

特点:为了增强生成动画的多样性和控制性,Hallo2 支持通过文本标签控制人物的表情、动作等细节。这一功能使得生成的内容可以根据用户输入的文本进行微调,例如生成不同情感或风格的动画。

具体做法

4. 网络架构与训练策略

网络架构

训练策略

5. 数据增强与消融实验

数据增强

消融实验

项目地址及更多演示:https://fudan-generative-vision.github.io/hallo2

Hallo 1 介绍

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

退出移动版