Magi: 自动将漫画转录成文字并自动生成剧本

Magi模型，由牛津大学工程科学系的视觉几何组开发。这项研究的核心目标是通过人工智能技术自动为漫画生成文字剧本，使得视觉障碍人士（PVI）也能够享受漫画的乐趣。 它可以全自动地为漫画页生成剧本，包括谁说了什么以及何时说的。通过识别漫画页面上的面板、文字块和角色，以及如何将它们相互关联。 Magi项目的核心目标就是将漫画页面转录成文字形式的剧本。Magi利用人工智能技术自动执行以下几个步骤： 识别漫画页面上的元素 ：包括面板（漫画中的每个画框）、文本块（对话或描述的文字）和角色。 元素关联 ：确定文本块与特定角色之间的关系，即哪个角色说了文本中的话，以及按照漫画的阅读顺序排列这些文本块。 生成剧本 ：基于上述信息，Magi生成一个包含对话和描述的剧本，以文字形式呈现原本通过视觉图像讲述的故事。 Magi模型的主要功能包括： 面板检测 ：识别漫画页面上的各个面板，即独立的画框，这是理解漫画布局的基础。

文本块检测 ：在漫画的各个面板中识别文本块，这些文本块通常包含对话或叙述性文本。

角色检测 ：识别页面上的角色形象，这对于将文本与说话的角色关联至关重要。

角色聚类 ：将检测到的角色按其身份进行聚类，以区分页面上不同的角色。

文本到说话者的关联 ：确定哪些文本是由页面上的哪个角色说出的，这是生成准确剧本的关键。

阅读顺序排序 ：将检测到的文本块按照漫画的阅读顺序进行排序，确保剧本的叙述逻辑与原漫画一致。

通过这些功能，Magi能够自动将漫画页面转化为详细的文字剧本，其中包含角色对话和相应的动作或情境描述，从而使读者能够通过阅读文本来完整地体验漫画故事。 技术方法 输入漫画页面 ：模型首先接收一个漫画页面的图像作为输入。

特征提取 ：使用卷积神经网络（CNN）从输入的漫画页面中提取特征。这一步骤是为了识别图像中的不同元素，如面板、文本块和角色。

面板、文本块和角色检测 ：通过特征提取后，模型使用检测算法来识别漫画页面上的面板、文本块和角色。这可能涉及到对象检测模型，如Faster R-CNN或YOLO（You Only Look Once），来定位这些元素的具体位置。

角色聚类 ：对检测到的角色进行聚类，以确定不同的角色实体。这一步骤需要模型能够区分并聚类页面上出现的同一角色的不同实例。

文本到说话者的关联 ：模型需要确定页面上的文本块是由哪个角色说的。这通常涉及到理解文本块（例如对话气泡）与角色之间的空间关系，以及可能的指向性线索（如气泡尾巴指向角色）。

阅读顺序确定 ：确定面板和文本块的阅读顺序。这一步骤需要模型理解漫画特有的布局规则，如从右向左、从上到下的阅读顺序。

生成剧本 ：将上述步骤汇总的信息（包括角色对话和文本块的内容）整合成一个连贯的剧本。这包括运用自然语言处理（NLP）技术，将识别出的文本和对应的说话者以逻辑顺序排列，形成易于阅读的文本格式。

输出 ：最终输出一个详细的剧本，包含漫画页面上的对话和描述，按照原漫画的情节顺序呈现。

应用场景 提高漫画的可访问性 ：对于视觉障碍人士，Magi模型能够将视觉内容转换为可听的或可读的文本格式，使得这一群体也能够享受漫画故事。 教育和语言学习工具 ：自动生成的漫画剧本可以作为教学材料或语言学习资源，帮助学习者理解故事情节、角色对话以及文化差异。 研究工具 ：对漫画文化、叙事结构以及视觉艺术进行研究的学者可以利用Magi模型自动化地分析大量漫画内容，提高研究效率。 内容创作和编辑 ：漫画创作者和编辑可以使用Magi模型来快速生成剧本草稿，作为创作新故事或编辑现有作品的辅助工具。 开源贡献 Magi项目在技术和研究上的进步不仅体现在模型本身的创新上，还包括为评估模型性能而创建的一系列工具和资源。这些成就具体包括： 全新的处理和解析方法 Magi模型引入了一种新的方法来识别和解析漫画页面，这包括对漫画中的面板、文本和角色进行检测、分类和聚类，以及将文本与其说话者正确关联。这些步骤考虑到了漫画特有的视觉和结构特征，如阅读顺序、面板布局以及角色和文本之间的空间关系。 特别地，该模型能够处理漫画中常见的复杂情况，比如角色多样性、不同的面板布局风格以及文本的多样化呈现方式。这些挑战在传统的计算机视觉任务中较少遇到，因此Magi为这些问题提供了创新的解决方案。 Mangadex-1.5M数据集 包含约 150 万漫画页面的大型数据集，涵盖多种流派和艺术风格。这个数据集特别为Magi模型的训练设计，目标是解决漫画页面的自动理解和剧本生成问题，包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。 评估基准的创建 研究团队收集了来自80多部流行漫画的页面，构建了一个用于评估Magi模型性能的基准。这些漫画覆盖了广泛的风格和主题，能够全面检验模型对于不同类型漫画的处理能力。 这个评估基准不仅包括对模型识别和解析能力的测试，也提供了关于模型在角色识别、文本排序和对话关联等方面的性能信息。这有助于全面了解模型的强项和弱点，指导未来的研究和开发。 开源贡献 为了促进漫画视觉处理领域的研究和技术发展，Magi项目的研究团队将模型代码、预训练模型以及评估数据集公开。这使得其他研究者和开发者能够直接利用这些资源进行自己的研究和产品开发。 公开的资源也包括处理和训练模型所需的工具，以及用于评估模型性能的详细指南和工具。这些资源的开放性保证了研究的透明度和可复制性，为其他研究者提供了便利。 该项目结合了计算机科学、视觉艺术、语言学和无障碍技术等多个学科的研究，为跨学科合作提供了新的范例。 GitHub： https://github.com/ragavsachdeva/magi 论文： https://arxiv.org/abs/2401.10224 模型： https://huggingface.co/ragavsachdeva/magi 在线演示： https://huggingface.co/spaces/ragavsachdeva/the-manga-whisperer