近日生数科技与清华大学共同发布了中国首个长时长、高一致性、高动态性视频大模型--<a href="https://xiaohu.ai/p/6912" target="_blank" rel="noopener">Vidu</a>。这款模型被视为国内首个达到Sora级别的视频大模型。 官方称其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。 <a href="https://xiaohu.ai/p/6912" target="_blank" rel="noopener">Vidu</a>能够在单次生成中产生长达16秒的1080p高清视频。Vidu 采用 U-ViT 作为其主干架构,具备处理长视频的可扩展性和能力。它展现了强大的连贯性和动态性,能够生成现实和想象中的视频,并且可以理解某些专业摄影技术。 Vidu 在视频生成质量上与目前最强大的文本到视频生成器 Sora 旗鼓相当。此外,Vidu 还在其他可控视频生成方面进行了初步实验,包括 canny-to-video 生成、视频预测和基于主题的生成,取得了很好的效果。 [video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/04/X2Twitter.com_MQt828rMl7Z3Sr16720p.mp4"][/video] <h3 data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">主要能力:</strong></h3> <ol data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <p data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">文本到视频生成:</strong></p> <ul data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">高分辨率视频生成:</strong> Vidu 能够根据文本描述生成1080p分辨率的高清长视频,生成时长最长可达16秒。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">灵活的时间范围:</strong> 可以生成多种时长的视频,包括短片段、长视频和单帧图像。</li> </ul> </li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <p data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">一致性和动态性:</strong></p> <ul data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">3D一致性:</strong> 生成的视频在不同视角和摄像机移动过程中保持一致的三维视图,确保连贯性和自然过渡。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">镜头切换:</strong> Vidu 能够生成含有镜头切换的视频,使场景从不同角度呈现。</li> </ul> </li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <p data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">视觉效果:</strong></p> <ul data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">转场效果:</strong> 实现不同场景之间的自然转场,呈现流畅的视觉过渡。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">相机移动:</strong> 模拟摄像机的移动,包括缩放、平移和推拉镜头,增强视频的叙事性。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">灯光效果:</strong> 使用复杂的灯光效果,营造出神秘、平和等多种氛围,增强视觉体验。</li> </ul> </li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <p data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">情感和想象:</strong></p> <ul data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">情感表达:</strong> 能够准确呈现角色的不同情感,如快乐、孤独、尴尬和幸福,增加视频的情感深度。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">丰富的想象:</strong> 支持生成现实中不存在的幻想场景,充分发挥模型的想象力。</li> </ul> </li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <p data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">其他可控视频生成:</strong></p> <ul data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">Canny-to-Video 生成:</strong> 提供类似 ControlNet 的可控视频生成功能,根据输入边缘图生成对应的视频效果。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">视频预测:</strong> 根据输入的图像或视频帧预测生成后续的帧,产生连贯的视频内容。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">主题驱动的生成:</strong> 通过 DreamBooth 技术,将特定主题与生成模型关联,实现特定主题的视频生成。</li> </ul> </li> </ol> <h3><strong>Vidu的技术方法:</strong></h3> <img class="aligncenter size-large wp-image-7600" src="https://img.xiaohu.ai/2024/05/Jietu20240509-103042@2x-918x1024.jpg" alt="" width="918" height="1024" /> <ol> <li><strong>架构:</strong> <ul> <li><strong>扩散模型:</strong> Vidu采用扩散模型,以U-ViT(U-Vision Transformer)为主干,执行文本到视频生成任务。</li> <li><strong>U-ViT:</strong> 其架构能够在视频的空间和时间维度上有效压缩,并使用3D块作为输入,它通过长跳跃连接(skip connections)连接 Transformer 层的浅层和深层,来预测噪声,并支持视频的长序列建模。</li> </ul> </li> <li><strong>视频自编码器:</strong> <ul> <li>Vidu先使用视频自编码器对视频的空间和时间维度进行压缩,方便训练和推理。</li> <li>压缩表示通过U-ViT的噪声预测网络进行处理。</li> </ul> </li> <li><strong>U-ViT网络:</strong> <ul> <li>压缩后的3D视频块作为输入,并将时间、文本条件和噪声3D块都视为标记(token)。</li> <li>使用变压器长跳跃连接浅层和深层,以保持一致性。</li> <li>变压器能够处理可变长度的序列,从而可以生成不同时长的视频。</li> </ul> </li> <li><strong>数据标注:</strong> <ul> <li>使用高性能视频描述器进行视频标注,标注过程包括对动态信息的理解。</li> <li>使用重新描述技术将用户的输入转换为更适合模型处理的形式。</li> </ul> </li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <p data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">训练策略:</strong></p> <ul data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">大规模训练数据:</strong> Vidu 在大量的文本-视频对上进行训练,以确保模型能够充分学习不同场景下的文本与视频对应关系。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">视频字幕生成器:</strong> 为了减少人工标注工作量,首先训练了一个强大的视频字幕生成器,它能自动生成描述视频的字幕。通过这种方式,能够对大量训练视频进行标注。</li> <li data-immersive-translate-paragraph="1" data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">Re-captioning 技术:</strong> 在推理过程中,利用 re-captioning 技术将用户的输入文本重构成更适合模型理解的形式,提高生成的准确性。</li> </ul> </li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <p data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">生成方法:</strong></p> <ul data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">3D 一致性:</strong> 通过长序列建模和 3D 补丁,Vidu 能够生成视角一致且流畅的视频场景。例如,在视频生成过程中,模型能够调整镜头位置,实现物体在 3D 场景中不同视角的呈现。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">镜头切换:</strong> 模型可以在视频生成过程中根据输入的文本提示进行镜头切换,从不同的视角展示同一场景,保持主体的一致性。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">转场效果:</strong> 模型通过转场技术,在单次生成中连接不同的场景,使得两个场景之间的过渡更加自然流畅。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">相机移动:</strong> Vidu 模拟摄影中不同类型的相机移动,如缩放、平移和推拉镜头,从而增强视觉效果和叙事能力。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">灯光效果:</strong> 通过学习数据中的灯光分布,Vidu 能够在生成中加入特定的灯光效果,提升视频氛围。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">情感表达:</strong> 模型可以生成带有丰富情感的角色或场景,表现快乐、孤独等多种情感。</li> </ul> </li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <p data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">其他可控视频生成:</strong></p> <ul data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3" data-immersive-translate-paragraph="1">Canny-to-Video:<span class="notranslate immersive-translate-target-wrapper" lang="zh-CN" data-immersive-translate-translation-element-mark="1"><span class="notranslate" data-immersive-translate-translation-element-mark="1"> </span><span class="notranslate immersive-translate-target-translation-pre-whitespace immersive-translate-target-translation-theme-none immersive-translate-target-translation-inline-wrapper-theme-none immersive-translate-target-translation-inline-wrapper" data-immersive-translate-translation-element-mark="1"><span class="notranslate immersive-translate-target-inner immersive-translate-target-translation-theme-none-inner" data-immersive-translate-translation-element-mark="1">Canny转视频:</span></span></span></strong> 通过类似 ControlNet 的技术,在生成时参考输入的边缘图形,实现文本提示与输入边缘图形的结合,生成符合边缘图形约束的可控视频。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">视频预测:</strong> 给定一幅或多幅输入图像,模型可以生成后续帧,实现连续的视频预测。</li> <li data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3"><strong data-immersive-translate-walked="ac279cd2-9d55-4d73-89d2-cbf27f573ab3">主题驱动:</strong> 采用 DreamBooth 技术,使用特定图像进行微调,通过引入一个特殊符号代表特定主体,实现基于主体的特定视频生成。</li> </ul> </li> </ol> 论文:<a href="https://arxiv.org/abs/2405.04233" target="_blank" rel="noopener">https://arxiv.org/abs/2405.04233</a> 官网:<a href="https://www.shengshu-ai.com/" target="_blank" rel="noopener">shengshu-ai.com</a>