Zerox 是一个简单易用的 OCR 工具,可将 PDF、DOCX 等文件转换为 Markdown 格式。
它使用 GPT 模型对每个页面进行 OCR 处理,并将结果聚合为最终的 Markdown 输出。该工具支持 Node.js 和 Python 两种语言,并提供了丰富的配置选项。
Zerox 主要能力
- 零-shot OCR 处理
- 无须训练:利用 gpt-4o-mini 模型进行零-shot 学习,直接处理各种文档而无需特定任务的训练数据。
- 多格式支持
- 支持多种文件类型:能够处理 PDF、DOCX、图片等多种文档格式,适用于多种场景。
- 图像处理能力
- 将文件转换为图像:在处理过程中,将文档转换为图像,再对每个图像进行 OCR 处理,以提取文本信息。
- Markdown 输出
- 生成可编辑格式:处理后的文本以 Markdown 格式返回,便于后续编辑和使用,保留文档的基本格式。
- 并发处理
- 提高处理效率:支持并发处理多个页面,用户可设置同时处理的页面数量,以加快整体处理速度。
- 自定义选项
- 灵活的配置:用户可设置多种选项,例如选择处理特定页面、是否保持格式、以及选择使用的模型等。
- 易于集成
- Node 和 Python SDK:提供 Node.js 和 Python 的 SDK,便于开发者轻松集成到现有应用中。
- 清理选项
- 临时文件管理:支持在处理完成后自动清理临时生成的图像文件,简化用户的文件管理。