Stability AI 推出 Stable Video 4D 通过单个视频并生成八个新角度的动态新视角视频

Stability AI 宣布推出 Stable Video 4D(SV4D),这是一款创新模型,用户可以上传单个视频并生成八个新角度的动态新视角视频。

与以往需要从图像扩散模型、视频扩散模型和多视角扩散模型中取样的方法不同,SV4D 能够同时生成多个新视角视频,大大提高了空间和时间轴上的一致性。这不仅确保了多个视角和时间戳中对象外观的一致性,还实现了更轻量级的4D优化框架,无需使用多个扩散模型进行繁琐的得分蒸馏采样(SDS)。

Stable Video 4D 可以在大约40秒内生成跨越8个视角的5帧视频整个4D优化过程大约需要20到25分钟。该技术在游戏开发、视频编辑和虚拟现实领域具有广泛的应用前景。专业人员可以利用此技术从多个视角可视化对象,增强产品的真实感和沉浸感。

主要功能特点

1. 多视图视频生成

SV4D的主要功能之一是从单个视频生成多视角的视频帧。这意味着给定一个单视角的视频,SV4D能够生成该视频中对象在多个不同视角下的帧,并确保这些帧在时间上的一致性。这一功能在以下几个方面表现出色:

2. 4D 表示优化

SV4D不仅仅是生成多视角的视频帧,它还能够使用这些生成的视角视频来优化动态3D对象的4D表示。具体来说,SV4D通过以下步骤实现这一点:

3. 混合采样方案

为了处理长视频输入,SV4D采用了一种混合采样方案。该方案在以下方面发挥了重要作用:

4. 自适应的引导缩放

在生成过程中,SV4D采用了一种自适应的引导缩放策略,以确保生成的图像在帧轴和视图轴上的一致性。这种策略结合了帧轴的线性增长和视图轴的三角波形变化,有效避免了图像过度锐化或饱和的问题。

使用的方法

1. 扩散模型

SV4D使用了最新的扩散模型技术来实现高质量的视频生成和多视图生成。扩散模型是一类生成模型,通过逐步去噪的方法生成数据。具体到SV4D,使用了Stable Video Diffusion (SVD) 和 SV3D 模型,并在此基础上进行了改进:

2. 视图注意力和帧注意力模块

为了在时间和视角上保持生成内容的一致性,SV4D在扩散模型中加入了视图注意力和帧注意力模块:

3. 数据集策划

为了训练SV4D,研究者从现有的Objaverse数据集中策划了一个新的4D数据集,命名为ObjaverseDy。这个数据集包含了大量的动态3D对象,研究者通过以下步骤进行策划和处理:

4. 混合采样方案

SV4D采用了一种混合采样方案,以处理长视频输入并保持输出图像网格的一致性:

5. 4D 优化

使用SV4D生成的多视图视频来优化动态3D对象的4D表示,具体步骤如下:

6. 自适应的引导缩放

在生成过程中,SV4D采用了一种自适应的引导缩放策略,以确保生成的图像在帧轴和视图轴上的一致性:

7. 多重损失函数

在优化过程中,SV4D使用了多种损失函数来提高生成内容的质量和一致性:

实验结果

定量比较
定性比较
应用前景
性能总结表
性能指标 SV4D表现 对比方法表现
生成速度 40秒内生成8视角的5帧视频 传统方法需要数小时
多视角一致性 FVD-V显著低于对比方法 SV3D和STAG4D一致性较差
时间一致性 FVD-F显著低于对比方法 SV3D和STAG4D一致性较差
图像质量 LPIPS和CLIP-S表现良好 Diffusion2和其他方法可能模糊
4D一致性 FVD-Diag和FV4D表现优异 其他方法一致性较差
用户偏好 73.3%用户偏好SV4D生成结果 SV3D、Diffusion2和STAG4D偏好低

项目及演示:https://sv4d.github.io/

模型下载:https://huggingface.co/stabilityai/sv4d

论文:https://arxiv.org/abs/2407.17470

官方介绍:https://stability.ai/news/stable-video-4d

退出移动版