Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

世界上大多数数据，如医疗记录、播客和财务报表，存在于图像、PDF、音频文件或专用知识库中，这些格式LLMs处理不佳或不被接受。访问和处理这些数据对于人工智能应用解决现实世界的用例至关重要。

当前的语言模型（LLM）对于这些非结构化数据的直接理解能力有限，而人工解析或传统方法效率较低，质量不佳。 Fireworks AI推出了一种叫“Document Inlining”功能，这是一种复合AI系统，通过解析图像或PDF，将非文本内容转化为LLM可理解的结构化文本，以提升多模态任务的质量。

Document Inlining 能够将非结构化的文档（如PDF、截图、图像等）转化为LLM（大语言模型）可理解的结构化文本，变成能直接用于聊天机器人或者AI模型的文字内容。它的核心目标是弥合多模态（图像和文本）之间的鸿沟，使复杂的文档解析和理解变得更加高效和准确。

准确性 ：从 PDF 和图片中提取数据，准确率极高。 灵活性 ：适用多种复杂格式，不论是扫描件、图片还是表格都能被轻松解析。 易用性 ：开发者只需一行代码即可启用，无需额外复杂操作。 主要功能 解析复杂文档结构 自动识别和解析文档中的多种内容，包括文本、表格、图表以及嵌套布局。 支持光学字符识别（OCR），能准确提取图像中的文字内容。 保留原始文档的层级和语义结构，以便后续处理。 支持多种文档格式 PDF文件 ：提取正文、标题、页码、表格及嵌入式图表。 屏幕截图 ：从静态图像中提取有用的文本信息。 图表和表格 ：解析嵌套的行列结构，并将其转化为语言模型可处理的格式。 简单的开发体验 开发者可以通过API接口调用功能，无需复杂的设置，兼容OpenAI API 仅需一行代码修改。 在 Fireworks 中，启用Document Inlining功能仅需在现有的 API 中添加一行代码 例如： from fireworks import inline_document result = inline_document( "example.pdf" ) 解析后的文本直接适配语言模型输入。 模型灵活性 ：适配任何 LLM，包括微调和专用模型。 高质量生成 利用优化的特定领域模型，确保提取内容的准确性和一致性。 能处理包含多种模态的复杂文档内容，提高语言模型在生成任务中的表现。 多模态融合 将视觉信息（如图像或PDF）与文本内容融合，通过跨模态桥梁，实现统一的数据表示。 支持LLM在复杂文档生成、回答问题或总结时提供更高的准确性和上下文理解能力。 应用场景 Document Inlining 在多个领域表现出强大的实用性： 企业办公 ：快速处理合同、报告或发票的复杂表格内容。 教育领域 ：解析学术论文中的公式、图表或嵌套数据。 金融分析 ：高效提取报表中嵌入的财务数据或图表说明。 客户支持 ：从截图或用户上传的非文本文件中自动提取关键信息，提升自动化响应能力。 技术方法 Document Inlining 结合了提示转换技术，使 LLM 能够处理 PDF 和包含多张图片的文档。

通过以下两步方法将图像和 PDF 转录为结构化文本，以供 LLM 处理：

1. 解析（Parsing） ：转录并解析非文本内容。

2. 摄取（Ingest） ：将解析得到的文本输入到 LLM 中进行推理和进一步处理。

核心技术方法包括： OCR与布局分析 使用先进的OCR技术提取文档中的文字内容，同时通过布局分析（DLA）理解文档的层次结构（标题、正文、图表等）。 表格和图表解析 专用模型针对复杂表格和嵌套图表进行优化，确保数据提取的准确性和逻辑一致性。 跨模态嵌入 将视觉特征与语言模型特征统一到一个多模态表示中，实现内容无缝转换。 示例对比 以下示例展示了 Document Inlining 在端到端流程中的优势： 没有 Document Inlining 时，使用 Qwen 2VL 视觉模型提示“表格中一共有多少个字母 T？”得到显然错误的答案。 使用 Document Inlining 后，利用更智能的 “Qwen 2.5 72B instruct” 模型，可以得到正确答案。（不同模型运行时可能会有些许差异。） 当前的局限性 虽然这一方法在处理典型文档布局时表现优异，但在以下情况下仍存在一定局限性： 高度视觉化的内容 ：文本很少的图像。 依赖空间关系的内容 ：对布局依赖性较强的文档。 复杂布局的内容 ：不易转化为结构化文本的文档。 质量评估 为了评估文档内嵌（Document Inlining）的有效性，设计了两个实验，使用了一组 arXiv 文章及相关问题的数据集进行测试。数据集中，每篇文章以 PDF 格式提供，并随机选择了 100 个文章–问题对。这些数据对分别被输入到指定模型中，最终由 Claude 3.5-Sonnet 选择更优的回答。我们选择 Claude 作为评估工具，因为 Anthropic API 原生支持 PDF 摄取。 实验 1：对比开源 LLM 与 GPT4o 在第一个实验中，我们对比了一个开源权重的文本模型（Qwen2.5-72B-Instruct）与 GPT4o 的性能。测试设置如下： Qwen2.5-72B-Instruct ：使用文档内嵌功能处理每个 PDF，将其解析为结构化文本后输入模型。 GPT4o ：接收每页 PDF 作为图像输入。 结果 在所有测试对比中， Qwen2.5-72B-Instruct 的回答在 68% 的情况下优于 GPT4o 。详见下图（原文中有图表说明）。 实验 2：同一 VLM 的不同配置对比 在第二个实验中，我们对比了同一个视觉语言模型（Qwen2-VL-72B-Instruct）在两种不同配置下的表现： 使用文档内嵌功能处理 PDF，将其解析为结构化文本。 不使用文档内嵌功能，而是逐页将 PDF 转化为图像输入模型。 结果 实验结果清楚地表明，启用文档内嵌功能后，模型生成的回答质量明显提升。详见下图（原文中有图表说明）。 开始使用 只需一行代码即可将 Document Inlining 集成到任何 LLM 中，包括无服务器（serverless）、按需（on-demand）或经过微调的模型。具体方法如下： 代码集成 按照 OpenAI API 的视觉模型规范，直接在内容 URL 后附加 #transform=inline 即可。例如： inline_content = fireworks.inline_document(file_path= "example.pdf" ) 用户界面使用 在 UI Playground 中，可以为任何模型启用 “Transform” 选项，直接使用 Document Inlining 功能，无需额外配置。 完整演示 [video width="3456" height="1980" mp4="https://img.xiaohu.ai/2024/12/Trimmed_New_Prompt_Doc_Inlining.mp4"][/video] 通过复合 AI 构建更智能的系统 Document Inlining 展示了复合 AI 系统的强大能力。通过 Document Inlining，我们不再依赖单一的视觉模型完成所有任务，而是通过专用的解析器和推理模型，实现了更高质量、更快速且更具成本效益的结果。 未来，他们计划扩展 Document Inlining 的功能，支持更多输入转换，包括音频文件的内嵌处理，以及长文档的推理时搜索功能。 Fireworks：轻松构建复合 AI 系统 Fireworks 为 Compound AI 系统构建提供了完整的生态，包括以下四大核心能力： 1. 推理（Inference） 快速、高性价比地运行各种模型和组件。 无需复杂的基础设施，即可进行不同类型任务的推理。 2. 多模型与多模态支持（Models and Modalities） 提供一站式模型访问，支持以下模态的任务： 文本（Text） 音频（Audio） 图像（Image） 视觉理解（Vision Understanding） 用户无需在不同系统间切换，即可完成复杂的多模态任务。 3. 适应性（Adaptability） 根据具体用例，优化模型的质量与速度。 提供灵活的模型微调选项，满足不同场景需求。 4. Compound AI 系统管理 通过 Fireworks 框架和工具（如函数调用和 JSON 模式），轻松协调并运行多个组件。 Compound AI 能够实现组件化开发，并支持模块之间的高效协作。 Compound AI 的优势 模块化设计 每个模型专注于特定任务，降低单一模型的复杂性，提升整体性能。 高质量输出 利用专用解析器处理输入，推理模型专注于生成和推理任务，减少质量损失。 速度与成本 使用分布式架构并优化任务流程，既降低推理延迟，也减少成本开销。 未来扩展性 通过引入更多输入转换形式（如音频解析和长文档搜索），进一步扩展 Compound AI 的应用场景。 原文： https://fireworks.ai/blog/document-inlining-launch#quality-evaluation