Marker 能将 PDF、EPUB 和 MOBI 文件转换成 markdown 格式。它的转换速度是 nougat 的十倍之快,对多数文档的处理更为精确,且几乎不会产生错误的幻觉效果。
主要功能
- 支持多种格式:能够将 PDF、EPUB、MOBI文件转换 Markdown 格式。
- ⚡ 高速和高准确度:提供快速的转换速度和高准确度,(针对书籍和科学论文进行了优化)速度比 nougat 快 10 倍。
- 去除多余元素:自动去除页眉、页脚和其他不必要元素。
- 方程转 LaTeX:能够将大多数数学方程转换为 LaTeX 格式,适用于科学和学术文档。
- 格式化代码和表格:能够识别并格式化文档中的代码块和表格。
- OCR 功能:如果需要,它会使用OCR来处理文档
- 支持多种语言:支持多种语言
工作原理
Marker 是基于一系列深度学习模型构建的:
- 提取文本,必要时使用 OCR 技术(采用启发式算法和 tesseract 工具) – 检测页面布局(使用 [布局分割器]( huggingface.co/vikp/layout_se) 和 [列检测器]( huggingface.co/vikp/column_de)
- 清洗并格式化每一块内容(运用启发式算法和 [nougat]( huggingface.co/facebook/nouga)
- 合并这些块并对整体文本进行后期处理(利用启发式算法和 [pdf后处理器]( huggingface.co/vikp/pdf_postp) 依赖自回归前向传递来生成文本的方法通常速度较慢,且容易出现重复或虚假内容。
- 根据 nougat 论文的研究,这种重复现象在测试集的页面中出现的比例为 1.5%,但在非专业领域的文档中,这一比例会更高。根据我的个人测试,非专业领域(非 arXiv)的页面重复率超过了 5%。
- 尽管 nougat 模型表现出色,但我还是希望找到一个更快、更适用于普通用途的解决方案。Marker 的转换速度是 nougat 的十倍,因为它只对公式块进行 LLM 前向传递处理,所以几乎没有产生错误幻觉的风险。 项目地址: github.com/VikParuchuri/m