MagicTime:是一个专注于生成变形时间延迟视频的模型,集成DiT-based架构,解决了现有文本到视频(T2V)生成模型未能充分编码现实世界物理知识的问题。 在传统的T2V生成中,生成的视频往往具有有限的动作和变化较差的问题 MagicTime通过引入变形时间延迟视频的概念,旨在克服这些限制,提高视频生成的质量和动态性。 它能够从文本描述中生成反映真实世界物理变化过程的时间延迟视频。所谓“变形时间延迟视频”指的是展示某个对象或场景在较长时间跨度内发生的逐步变化的视频,这种变化包括但不限于自然生长、物体的腐化、建筑的建设等,涉及显著的物理或形态变化。 [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/04/X2Twitter.com_1777525810351550464720p.mp4"][/video] <h3>主要解决的问题:</h3> •物理知识编码不足: 现有的T2V模型生成的视频缺乏对现实世界物理规律的准确反映。 •有限的动作和变化: 生成的视频动作单一,变化不足,难以反映复杂的变形过程。 <h3 data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">主要功能特点:</strong></h3> <ol data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">变形时间延迟视频生成:</strong> MagicTime专注于生成包含物理知识、长期持续性和强烈变化的变形视频,这些视频比常规视频包含更丰富的物理知识和变形过程。</li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">MagicAdapter方案:</strong> 通过设计MagicAdapter方案,MagicTime能够解耦空间和时间训练,从变形视频中编码更多的物理知识,并转换预训练的T2V模型以生成变形视频。</li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">动态帧提取策略:</strong> 引入动态帧提取策略来适应变化范围更广的变形时间延迟视频,更好地体现物理知识。</li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">Magic Text-Encoder:</strong> 改进了对变形视频提示的理解,提高文本到视频生成的准确性和质量。</li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">ChronoMagic数据集:</strong> 创建了专门的时间延迟视频文本数据集ChronoMagic,为解锁变形视频生成能力提供支持。</li> </ol> <h3>集成DiT-based架构:</h3> 该项目的使命是帮助复现Sora,并提供高质量的视频文本数据和数据注释管道,以支持<a href="https://github.com/PKU-YuanGroup/Open-Sora-Plan" target="_blank" rel="noopener">Open-Sora-Plan</a>或其他基于DiT的T2V模型。MagicTime计划将额外的变形景观时间延迟视频集成到同一注释框架中,以获得ChronoMagic-Landscape数据集,然后使用该数据集微调<a href="https://github.com/PKU-YuanGroup/Open-Sora-Plan" target="_blank" rel="noopener">Open-Sora-Plan v1.0.0</a>,得到MagicTime-DiT模型。 <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">MagicTime项目通过集成DiT-based(即基于深度图像转换)架构,致力于实现两个主要目标:</p> <ol data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">复现Sora:</strong> Sora是一个先进的文本到视频(T2V)转换模型,MagicTime项目旨在复现并提升这类模型的性能。通过提供高质量的视频文本数据和数据注释管道,MagicTime增强了模型学习和生成视频的能力。</p> </li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">支持Open-Sora-Plan或其他基于DiT的T2V模型:</strong> 项目通过整合和优化资源,支持Open-Sora-Plan等框架或其他基于DiT的T2V模型。这种支持使得这些模型能够更准确地生成高质量的视频,尤其是在处理复杂的变形时间延迟视频时。</p> </li> </ol> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">为了实现这些目标,MagicTime采取了以下策略:</p> <ul data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">集成额外的变形景观时间延迟视频:</strong> 通过将这些视频集成到同一注释框架中,MagicTime扩大了数据集的规模和多样性。这不仅增加了模型训练的数据量,还引入了更丰富的变形过程和物理知识,有助于模型学习如何生成更加真实和动态的视频。</p> </li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">获得ChronoMagic-Landscape数据集:</strong> 集成后的数据集被命名为ChronoMagic-Landscape,它包含了大量的变形景观时间延迟视频。这个数据集专门用于训练和微调模型,以提高其生成时间延迟视频的能力。</p> </li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">微调Open-Sora-Plan v1.0.0:</strong> 使用ChronoMagic-Landscape数据集对Open-Sora-Plan v1.0.0进行微调,目的是获得一个经过优化的MagicTime-DiT模型。这个微调过程利用了数据集中的丰富场景和变形过程,旨在提高模型的生成质量和准确性。</p> </li> </ul> <img class="aligncenter size-large wp-image-5851" src="https://img.xiaohu.ai/2024/04/Pipeline-9-1024x411.png" alt="" width="1024" height="411" /> <h3>技术方法</h3> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">MagicTime模型生成变形时间延迟视频的技术原理基于几个核心组件和策略:</p> <ol data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">MagicAdapter方案:</strong> 为了使预训练的文本到视频(T2V)模型能够生成反映复杂物理变化的变形视频,MagicTime设计了MagicAdapter方案。这个方案包括两个部分:MagicAdapter-S和MagicAdapter-T。MagicAdapter-S负责去除视频中的水印,而MagicAdapter-T则专注于生成变形视频。这种方法通过解耦空间和时间训练过程,使模型能够更好地学习和编码变形视频中包含的物理知识。</p> </li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">动态帧提取策略:</strong> 变形时间延迟视频涵盖的物理变化范围广泛,从而包含更丰富的物理知识。为了适应这种宽广的变化范围,MagicTime引入了动态帧提取策略。这种策略能够从时间延迟视频中提取关键帧,确保模型能够捕捉到整个变形过程中的每一个重要阶段,从而生成连贯且动态的视频内容。</p> </li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">Magic Text-Encoder:</strong> 文本描述是生成变形时间延迟视频的起点。MagicTime通过引入Magic Text-Encoder来增强模型对变形视频提示的理解能力。这个文本编码器专门针对描述变形过程的文本进行优化,能够更准确地解析和把握文本中的物理知识和变化细节,从而指导视频的生成过程。</p> </li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">ChronoMagic数据集:</strong> 为了训练和优化MagicTime模型,项目团队创建了ChronoMagic数据集。这个数据集专门收集了反映复杂变形过程的时间延迟视频及其对应的文本描述,提供了一个丰富的资源库,帮助模型学习如何从文本描述中生成真实世界物理变化的视频。</p> </li> <li data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"> <p data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43"><strong data-immersive-translate-walked="23e67a56-0faa-4659-b360-0ee67100dc43">集成DiT-based架构:</strong> DiT(深度图像转换)架构为MagicTime提供了一个强大的基础,使其能够支持复杂的视频生成任务。MagicTime计划通过将其技术集成到DiT-based框架中,进一步提高模型的生成能力和灵活性,尤其是在处理长期持续和强烈变化的场景时。</p> </li> </ol> 项目及演示:<a href="https://pku-yuangroup.github.io/MagicTime/" target="_blank" rel="noopener">https://pku-yuangroup.github.io/MagicTime/</a> 论文:<a href="https://arxiv.org/abs/2404.05014" target="_blank" rel="noopener">https://arxiv.org/abs/2404.05014</a> GitHub:<a href="https://github.com/PKU-YuanGroup/MagicTime/tree/main" target="_blank" rel="noopener">https://github.com/PKU-YuanGroup/MagicTime/tree/main</a>