MovieLLM 是由复旦大学和腾讯PCG的研究人员共同开发的一个新颖框架,能够从简单的文本提示中生成高质量、电影级别的视频数据。 旨在为长视频创建合成的高质量数据。这个框架结合了GPT-4和文本到图像的模型,以生成详细的剧本和相应的视觉内容。 也就是MovieLLM 能仅仅通过一个词或一个句子就能创作出一部完整的电影。 通俗来讲就是:MovieLLM 通过合成电影数据为人工智能模型提供训练材料,使它们能够更好地理解和生成长视频内容。 <h3>解决什么问题</h3> MovieLLM 解决的主要问题是长视频数据的稀缺性和制作高质量、多样化视频数据集的困难。 长视频,如电影或连续剧,往往包含复杂的叙事结构和丰富的视觉细节,这对于训练视频理解和生成的人工智能模型来说是一个挑战。现有的视频分析模型通常在处理短视频片段时效果不错,但在理解长视频时会遇到难题,主要因为缺乏高质量和多样化的长视频训练数据。 MovieLLM 通过生成合成的高质量长视频数据来解决这个问题。 <strong>MovieLLM 能够做到:</strong> <ol> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">增强AI对长视频的理解</strong>:通过为AI模型提供大量的、高质量的长视频数据,帮助这些模型学习到更复杂的视频内容理解技能,比如追踪电影中的叙事线索、理解场景转换、角色发展等。</p> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">提供训练数据</strong>:对于需要大量视频内容来训练的AI应用,比如自动视频编辑、内容推荐系统、甚至自动生成电影预告片等,MovieLLM 生成的数据可以成为一个宝贵的资源。</p> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">增进多模态学习</strong>:多模态学习涉及到理解和处理多种类型的数据(如文本、图像、视频等)。MovieLLM 生成的包含文本描述、问答对和对应图像的视频数据,能够促进AI在这一领域的发展,比如提升AI对电影中对话和场景之间关系的理解。</p> </li> </ol> <img class="size-large wp-image-2981 aligncenter" src="https://img.xiaohu.ai/2024/03/fig1-1024x443.png" alt="" width="1024" height="443" /> <h3>主要功能</h3> <ol> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">生成一致的关键帧</strong>:利用GPT-4和引导式文本到图像生成模型,为电影级长视频生成风格一致的关键帧、对白和相应的问答对。这些生成的数据旨在帮助训练多模态大型语言模型以更好地理解视频内容。</p> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">提供高质量的长视频数据</strong>:通过AI生成详细的剧本和对应的视觉内容,MovieLLM创造了一种新的方法来获取长视频数据,解决了传统方法中存在的高质量和多样化视频数据缺乏的问题。</p> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">改善多模态模型的性能</strong>:MovieLLM生成的数据显著提高了多模态模型在理解复杂视频叙事方面的性能,克服了现有数据集在稀缺性和偏见方面的限制。</p> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">提升视频理解的灵活性和可扩展性</strong>:MovieLLM的方法在生成合成数据方面展示了显著的灵活性和可扩展性,为视频理解提供了一种比传统数据收集方法更优越的选择。</p> </li> </ol> <img class="size-large wp-image-2982 aligncenter" src="https://img.xiaohu.ai/2024/03/PIPELINE-3-1024x554.png" alt="" width="1024" height="554" /> <h3>工作流程</h3> <ol> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">剧本和关键帧生成</strong>:</p> <ul data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">利用 GPT-4,根据给定的主题、概览、风格等特定元素,生成电影级别的剧本和关键帧描述。这一步骤充分发挥了 GPT-4 在内容创作方面的强大能力,能够创造出具有丰富细节和深度的剧情描述。</li> </ul> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">风格固定与图像生成</strong>:</p> <ul data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">通过文本倒置技术,将从剧本中生成的风格描述应用到扩散模型的潜在空间中。这一技术确保了生成的图像能够忠实于剧本中的风格描述,同时保持视觉上的一致性和多样性。</li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">接着,使用风格引导的扩散模型生成与剧本描述相匹配的关键帧图像。这些图像在保持统一风格的同时,展现出场景的多样性,使得每个关键帧都是独特且富有表现力的。</li> </ul> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">问答对生成</strong>:</p> <ul data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">结合生成的关键帧和剧本内容,MovieLLM 还能产生与之相关的问答对,这为视频理解和内容检索提供了额外的语义信息。这些问答对旨在捕捉视频内容的关键信息,为后续的模型训练提供丰富的上下文。</li> </ul> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">数据集构建</strong>:</p> <ul data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">将生成的关键帧、剧本描述和问答对整合成一个综合的数据集。这个数据集旨在训练和优化多模态大型语言模型,特别是在理解长视频内容方面。</li> </ul> </li> </ol> <img class="size-large wp-image-2984 aligncenter" src="https://img.xiaohu.ai/2024/03/appendix6-1-1024x689.png" alt="" width="1024" height="689" /> <h3><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">实验结果</strong></h3> MovieLLM 的研究展示了通过 AI 生成的电影数据在提高长视频理解模型性能方面的显著成效。以下是一些关键实验结果的总结: <ol> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">数据集比较</strong>:</p> <ul data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">MovieLLM 生成的数据集与现有的基于 MovieNet 基础的 LLaMA-VID 数据集相比,提供了更丰富的视频QA对(视频每图像的 QA 数量从 0.0054 增加到 0.0947,视频类型的 QA 从每视频 21 增加到 125),表明 MovieLLM 能生成更深入、信息量更大的数据。</li> </ul> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">关键帧生成质量</strong>:</p> <ul data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">通过量化比较 MovieLLM 方法与其他现有方法,MovieLLM 在关键帧一致性、文本-图像对齐度以及 BRISQUE 图像质量评分上都显示出更优的性能(关键帧一致性从 0.7318 提升到 0.8080,文本-图像对齐度从 0.3278 提升到 0.3325,BRISQUE 分数从 22.7554 降低到 22.5648,分数越低表示图像质量越高)。</li> </ul> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">视频理解性能</strong>:</p> <ul data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">在两个零样本视频问答数据集(MSVD-QA 和 MSRVTT-QA)上,结合 MovieLLM 数据集训练的模型相比基线模型(LLaMA-VID)在准确率上分别提高了 15% 和 18%,得分也有显著提升,显示了 MovieLLM 数据集在提升模型对长视频内容理解能力方面的有效性。</li> </ul> </li> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <p data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"><strong data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">生成性能基准测试</strong>:</p> <ul data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1"> <li data-immersive-translate-walked="7e4f57ce-106c-4eef-93c5-2478250cf9b1">MovieLLM 与基线模型相比,在视频基于生成性能的量化评估中,在正确性、细节、上下文、时间性和一致性等方面都显示出显著的改进,证明了 MovieLLM 方法在提高模型理解和生成长视频内容方面的有效性。</li> </ul> </li> </ol> 提出了一个评估长视频理解能力的基准测试。实验结果显示,所提方法的有效性,显著优于基线模型。 项目及演示:<a href="https://deaddawn.github.io/MovieLLM/" target="_blank" rel="noopener">https://deaddawn.github.io/MovieLLM/</a> 论文:<a href="https://arxiv.org/abs/2403.01422" target="_blank" rel="noopener">https://arxiv.org/abs/2403.01422</a> GitHub:<a href="https://github.com/Deaddawn/MovieLLM-code" target="_blank" rel="noopener">https://github.com/Deaddawn/MovieLLM-code</a>