Animagine XL 3.1是Animagine XL V3系列的最新更新,是一个开源的动漫主题文本到图像模型。此版本针对生成更高质量的动漫风格图像进行了改进,包括更广泛的知名动漫角色范围、优化的数据集和新的美学标签。
该模型预训练使用了一个包含870000张有序且标注的图像的数据集。这些图像覆盖了广泛的动漫角色、风格和主题,从而为模型提供了一个深厚的知识基础。
Animagine XL 3.1在训练数据集中整合了众多知名的动漫系列,包括流行的gacha游戏角色和其他动漫作品。这使得模型能够更深入地理解并生成广泛的动漫角色和风格。
此外,数据集中的图像通过新的美学标签进行了进一步的标注,这些标签基于专门的视觉变换器(ViT)模型,用于评估内容的视觉吸引力。
训练过程:
Animagine XL 3.1在2x A100 80GB GPUs上训练了大约15天,总计超过350 GPU小时。训练分为三个阶段:预训练、第一阶段微调和第二阶段微调,每个阶段都专注于不同的目标,从增加模型知识到细化美学数据集和改善艺术风格的渲染。
功能改进
-
增强的数据集和模型知识:
- 扩展了对动漫历史的覆盖,从经典到最新的动漫都有所涉及,增强了模型对不同艺术风格和角色的理解。
- 集成了更多动漫作品,包括流行的gacha游戏角色和多个知名动漫系列,显著增加了模型的知识库。
-
图像质量的显著提升: