Vidu：发布技术报告披露技术细节首个国产媲美Sora的视频生成模型

近日生数科技与清华大学共同发布了中国首个长时长、高一致性、高动态性视频大模型-- Vidu 。这款模型被视为国内首个达到Sora级别的视频大模型。 官方称其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。 Vidu 能够在单次生成中产生长达16秒的1080p高清视频。Vidu 采用 U-ViT 作为其主干架构，具备处理长视频的可扩展性和能力。它展现了强大的连贯性和动态性，能够生成现实和想象中的视频，并且可以理解某些专业摄影技术。 Vidu 在视频生成质量上与目前最强大的文本到视频生成器 Sora 旗鼓相当。此外，Vidu 还在其他可控视频生成方面进行了初步实验，包括 canny-to-video 生成、视频预测和基于主题的生成，取得了很好的效果。 [video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/04/X2Twitter.com_MQt828rMl7Z3Sr16720p.mp4"][/video] 主要能力： 文本到视频生成：

高分辨率视频生成： Vidu 能够根据文本描述生成1080p分辨率的高清长视频，生成时长最长可达16秒。 灵活的时间范围： 可以生成多种时长的视频，包括短片段、长视频和单帧图像。 一致性和动态性：

3D一致性： 生成的视频在不同视角和摄像机移动过程中保持一致的三维视图，确保连贯性和自然过渡。 镜头切换： Vidu 能够生成含有镜头切换的视频，使场景从不同角度呈现。 视觉效果：

转场效果： 实现不同场景之间的自然转场，呈现流畅的视觉过渡。 相机移动： 模拟摄像机的移动，包括缩放、平移和推拉镜头，增强视频的叙事性。 灯光效果： 使用复杂的灯光效果，营造出神秘、平和等多种氛围，增强视觉体验。 情感和想象：

情感表达： 能够准确呈现角色的不同情感，如快乐、孤独、尴尬和幸福，增加视频的情感深度。 丰富的想象： 支持生成现实中不存在的幻想场景，充分发挥模型的想象力。 其他可控视频生成：

Canny-to-Video 生成： 提供类似 ControlNet 的可控视频生成功能，根据输入边缘图生成对应的视频效果。 视频预测： 根据输入的图像或视频帧预测生成后续的帧，产生连贯的视频内容。 主题驱动的生成： 通过 DreamBooth 技术，将特定主题与生成模型关联，实现特定主题的视频生成。 Vidu的技术方法： 架构： 扩散模型： Vidu采用扩散模型，以U-ViT（U-Vision Transformer）为主干，执行文本到视频生成任务。 U-ViT： 其架构能够在视频的空间和时间维度上有效压缩，并使用3D块作为输入，它通过长跳跃连接（skip connections）连接 Transformer 层的浅层和深层，来预测噪声，并支持视频的长序列建模。 视频自编码器： Vidu先使用视频自编码器对视频的空间和时间维度进行压缩，方便训练和推理。 压缩表示通过U-ViT的噪声预测网络进行处理。 U-ViT网络： 压缩后的3D视频块作为输入，并将时间、文本条件和噪声3D块都视为标记（token）。 使用变压器长跳跃连接浅层和深层，以保持一致性。 变压器能够处理可变长度的序列，从而可以生成不同时长的视频。 数据标注： 使用高性能视频描述器进行视频标注，标注过程包括对动态信息的理解。 使用重新描述技术将用户的输入转换为更适合模型处理的形式。 训练策略：

大规模训练数据： Vidu 在大量的文本-视频对上进行训练，以确保模型能够充分学习不同场景下的文本与视频对应关系。 视频字幕生成器： 为了减少人工标注工作量，首先训练了一个强大的视频字幕生成器，它能自动生成描述视频的字幕。通过这种方式，能够对大量训练视频进行标注。 Re-captioning 技术： 在推理过程中，利用 re-captioning 技术将用户的输入文本重构成更适合模型理解的形式，提高生成的准确性。 生成方法：

3D 一致性： 通过长序列建模和 3D 补丁，Vidu 能够生成视角一致且流畅的视频场景。例如，在视频生成过程中，模型能够调整镜头位置，实现物体在 3D 场景中不同视角的呈现。 镜头切换： 模型可以在视频生成过程中根据输入的文本提示进行镜头切换，从不同的视角展示同一场景，保持主体的一致性。 转场效果： 模型通过转场技术，在单次生成中连接不同的场景，使得两个场景之间的过渡更加自然流畅。 相机移动： Vidu 模拟摄影中不同类型的相机移动，如缩放、平移和推拉镜头，从而增强视觉效果和叙事能力。 灯光效果： 通过学习数据中的灯光分布，Vidu 能够在生成中加入特定的灯光效果，提升视频氛围。 情感表达： 模型可以生成带有丰富情感的角色或场景，表现快乐、孤独等多种情感。 其他可控视频生成：

Canny-to-Video： Canny转视频： 通过类似 ControlNet 的技术，在生成时参考输入的边缘图形，实现文本提示与输入边缘图形的结合，生成符合边缘图形约束的可控视频。 视频预测： 给定一幅或多幅输入图像，模型可以生成后续帧，实现连续的视频预测。 主题驱动： 采用 DreamBooth 技术，使用特定图像进行微调，通过引入一个特殊符号代表特定主体，实现基于主体的特定视频生成。 论文： https://arxiv.org/abs/2405.04233 官网： shengshu-ai.com