<strong>Pandora</strong> 是一个混合自回归-扩散模型,通过生成视频来模拟世界状态,并允许通过自然语言实时控制。 <strong>它能够根据自然语言指令生成并实时控制不同领域的视频。</strong>用户可以在视频生成过程中输入自由文本操作,以实现即时视频控制。 Pandora还可以通过不同的动作模拟多种未来场景,并能够将一种领域学到的操作应用到其他未见的领域。该系统能够生成比现有模型更长的视频,但在复杂场景的生成、一致性保持、常识和物理法则的理解以及指令执行方面仍有局限。 [video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/05/pandora-general-world-model-simulate-the-world-under-control-1080-ytshorts.savetube.me_.mp4"][/video] <h3>主要功能特点</h3> <strong>1. 实时自然语言控制</strong> :Pandora 在视频生成过程中接受自由文本操作,实现即时视频控制。这种功能区别于传统的仅在视频开始时接受文本提示的模型,增强了互动性和控制的灵活性。 <ul> <li><strong>举例</strong>:在生成视频的过程中,用户可以输入指令如“让汽车左转”或“在前方增加一辆汽车”,Pandora 会即时地根据这些指令调整视频内容,实现动态控制。</li> </ul> [video width="720" height="780" mp4="https://img.xiaohu.ai/2024/05/5月24日-3.mp4"][/video] <strong>2.<span class="notranslate immersive-translate-target-wrapper" lang="zh-CN" data-immersive-translate-translation-element-mark="1"><span class="notranslate immersive-translate-target-translation-theme-none immersive-translate-target-translation-block-wrapper-theme-none immersive-translate-target-translation-block-wrapper" data-immersive-translate-translation-element-mark="1"><span class="notranslate immersive-translate-target-inner immersive-translate-target-translation-theme-none-inner" data-immersive-translate-translation-element-mark="1">跨域模拟世界</span></span></span></strong> Pandora 能够在各种领域生成视频,包括室内/室外、自然/城市、人类/机器人、2D/3D等不同场景,展示了其强大的通用视频生成能力。 Pandora 可以生成一个家庭场景的视频,同时也能生成一个城市街道或科幻风格的电影场景。用户可以通过输入不同的场景描述来生成相应的视频。 [video width="792" height="720" mp4="https://img.xiaohu.ai/2024/05/5月24日-32.mp4"][/video] <strong>3. 模拟不同未来:</strong> Pandora 允许用户通过不同的动作生成不同的未来视频。例如,同一个初始状态下,通过不同的操作可以生成截然不同的未来场景视频,展示了模拟不同未来的能力。 <ul> <li><strong>举例</strong>:在初始场景中,一个人站在房间中央。用户可以输入不同的指令如“这个人向左转头”或“这个人开始跳舞”,Pandora 会生成相应的不同未来的视频。</li> </ul> [video width="736" height="720" mp4="https://img.xiaohu.ai/2024/05/5月24日-31.mp4"][/video] <strong>4. 跨领域学习与应用:</strong> 通过高质量数据的指令调优,Pandora 能够学习一个领域的动作并将其无缝应用于不同的未见领域。例如,Pandora 在训练过程中只见过2D游戏Coinrun,但能够将学到的动作应用到其他2D游戏中。 <ul> <li><strong>举例</strong>:在训练时Pandora只见过2D游戏中的跳跃动作,但在实际应用中,它能够将这个跳跃动作应用到其他未见的2D游戏中,如Minecraft或Grand Theft Auto V的3D场景。</li> </ul> [video width="720" height="756" mp4="https://img.xiaohu.ai/2024/05/5月24日-33.mp4"][/video] <strong>5. 自回归模型生成更长视频</strong> Pandora 集成了自回归模型,能够生成更长的视频,突破了现有扩散视频模型的固定长度限制。即便训练视频的时长只有5秒,Pandora 也能生成长达8秒甚至更长的视频。 <ul> <li><strong>举例</strong>:在生成一段汽车行驶的视频时,Pandora 可以不断接受新的指令,如“继续向前行驶”或“左转进入小路”,从而生成持续更长时间的视频片段。</li> </ul> [video width="1330" height="720" mp4="https://img.xiaohu.ai/2024/05/5月24日-34.mp4"][/video] <h3>技术方法</h3> Pandora 通过预训练和指令调优,实现了视频生成的一致性、自然语言理解的通用性和实时控制的能力。其混合自回归-扩散模型架构和分阶段训练方法,使得Pandora能够在多领域生成高质量视频,并在视频生成过程中实时接受和执行自然语言指令。 Pandora 的开发包括多个关键技术方法,主要包括模型架构、分阶段训练和指令调优等。 <img class="aligncenter size-full wp-image-8497" src="https://img.xiaohu.ai/2024/05/Jietu20240524-124043@2x.jpg" alt="" width="2240" height="1108" /> <h4>1. 模型架构</h4> Pandora 是一个混合自回归-扩散模型,主要由以下组件构成: <ul> <li><strong>自回归骨干</strong>:采用预训练的大型语言模型(LLM),例如Vicuna-7B-v1.5,负责处理自然语言指令。</li> <li><strong>视频生成器</strong>:基于预训练的视频生成模型,如DynamiCrafter,通过输入初始帧或文本提示生成视频。</li> <li><strong>视觉编码器</strong>:对输入视频帧进行编码,并将编码结果与语言模型的嵌入对齐。</li> <li><strong>适配器模块</strong>:连接视觉编码器和自回归骨干,以及自回归骨干和视频生成器之间的必要模块,用于嵌入对齐和信息传递。</li> </ul> 在每个时间步,模型接收以下三组嵌入向量作为输入: <ol> <li>视觉编码器和适配器处理的前一世界状态的视觉嵌入。</li> <li>文本指令的嵌入。</li> <li>一组可学习的查询嵌入,刺激模型生成视频。</li> </ol> <h4>2. 分阶段训练</h4> <strong>预训练阶段</strong> <ul> <li><strong>目标</strong>:获得视频生成的一致性、自然语言理解的通用性以及两个组件之间表示空间的对齐。</li> <li><strong>步骤</strong>: <ol> <li>对视频生成器进行大规模视频数据的训练,确保其生成一致的视频。</li> <li>对自回归骨干进行大规模文本数据的训练,确保其对自然语言的理解。</li> <li>对齐预训练的语言模型和视频生成模型的嵌入空间,使用视频字幕数据集(如WebVid-10M)进行嵌入匹配。</li> </ol> </li> </ul> <strong>指令调优阶段</strong> <ul> <li><strong>目标</strong>:增强模型对自然语言指令的实时控制能力。</li> <li><strong>步骤</strong>: <ol> <li>构建包含高质量视频-动作对的数据集,强调视频动态描述。</li> <li>在这个数据集上微调模型,通过最小化扩散损失来训练视频生成器和查询嵌入,同时保持其他组件的固定。</li> </ol> </li> </ul> <h4>3. 数据集与指令调优</h4> <strong>公共视频数据集</strong> <ul> <li>使用Panda-70M、Something-Something V2、BridgeData V2、EPIC-KITCHENS等数据集。</li> <li>重新生成视频字幕以更好地描述视频动态。</li> </ul> <strong>模拟数据</strong> <ul> <li>使用模拟环境如CARLA、MP3D、StreetLearn、HM3D和Coinrun,生成视频-动作对以提供多样和准确的训练数据。</li> </ul> 项目及演示:<a href="https://world-model.maitrix.org/" target="_blank" rel="noopener">https://world-model.maitrix.org/</a> 论文:<a href="https://world-model.maitrix.org/assets/pandora.pdf" target="_blank" rel="noopener">https://world-model.maitrix.org/assets/pandora.pdf</a> 模型:<a href="https://huggingface.co/maitrix-org/Pandora" target="_blank" rel="noopener">https://huggingface.co/maitrix-org/Pandora</a> GitHub:<a href="https://github.com/maitrix-org/Pandora" target="_blank" rel="noopener">https://github.com/maitrix-org/Pandora</a>