MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集

Salesforce AI宣布开源🍃MINT-1T,这是首个拥有一万亿个Token的多模态交织数据集。包含一万亿个文本标记和34亿张图像,比现有开源数据集规模大10倍。此外,还纳入了 PDF 和 ArXiv 论文等之前尚未开发的资源。

多模态交织文档是包含图像和文本的序列结构,能够训练跨图像和文本模式推理的大型多模态模型。

数据集构建原则

数据集内容

MINT-1T 数据集的构建涉及多种来源的数据收集、处理和过滤步骤,以确保数据的高质量和多样性。

数据来源

  1. HTML 文档

    • 从 CommonCrawl 中提取 HTML 文档。
    • 处理时间范围从 2017 年 5 月到 2024 年 4 月,使用了 2018 年 10 月到 2024 年 4 月的完整数据和之前年份的部分数据。
    • 过滤条件:排除没有图像或超过30张图像的文档,以及图像URL包含不合适子串(如 logo, avatar, porn, xxx)的文档。
  2. PDF 文档

    • 从 CommonCrawl WAT 文件中提取 PDF 文档,处理时间范围从 2023 年 2 月到 2024 年 4 月。
    • 使用 PyMuPDF 工具下载和解析 PDF 文件。
    • 过滤条件:排除大于 50MB 或超过 50 页的 PDF,排除没有文本的页面,并根据页面上的文本块和图像的边界框位置来确定图像的插入顺序。
  3. ArXiv 文档

    • 使用 LaTeX 源代码构建交错文档。
    • 解析 LaTeX 代码中的 figure 标签,将图像与文本交错。
    • 处理多文件论文,识别主文件并清理 LaTeX 代码(如移除导入、参考文献、表格和引用标签)。

数据过滤与去重

  1. 文本质量过滤

    • 使用 FastText 模型进行语言识别,排除非英语文档。
    • 移除包含不合适子串的 URL(如 NSFW 内容)。
    • 应用来自 RefinedWeb 和 MassiveText 的文本过滤规则,移除重复的 n-grams 和低质量文档。
  2. 图像过滤

    • 尝试下载所有 HTML 数据集中的图像 URL,移除无法检索的链接。
    • 过滤条件:移除小于 150 像素的图像(避免噪音图像如 logo 和图标)和大于 20,000 像素的图像(通常为无关图像)。
    • 对 HTML 文档,移除长宽比大于 2 的图像;对 PDF 文档,调整阈值为 3 以保留科学图表。
  3. 安全过滤

    • 应用 NSFW 图像检测器,发现单个 NSFW 图像则移除整个文档。
    • 移除个人可识别信息,如电子邮件地址和 IP 地址,并替换为模板或随机生成的无效 IP。
  4. 去重处理

    • 使用 Bloom Filter 进行高效的文本去重,设置误报率为 0.01,去重 13-gram 段落。
    • 移除常见的 HTML 噪音句子(如 “Skip to content” 或 “Blog Archive”)。
    • 基于 SHA256 哈希值进行图像去重,移除在一个快照中出现超过十次的图像,以及单个文档中重复的图像。
    • 数据处理期间,平均使用 2350 个 CPU 核心,总共使用约 420 万 CPU 小时构建数据集。

模型实验

数据集分析

MINT-1T 数据集在规模、数据来源多样性和质量上都有显著提升。以下是对数据集的详细分析:

1. 文档组成比较

2. 数据源对文档多样性的提升

3. 上下文学习性能

4. 不同任务上的表现

5. 影响模型架构的性能

总结

通过以上分析,可以看出 MINT-1T 数据集在多样性、质量和规模上都显著优于现有的开源数据集,尤其在科学和技术领域表现突出。基于 MINT-1T 训练的模型在多模态任务中的表现优越,为未来的多模态研究提供了坚实的基础和丰富的资源。

Paper | Datasaset | Blog Post

来源:https://blog.salesforceairesearch.com/mint-1t

退出移动版