Yujun's Blog

如何统一多源文档格式？

March 20, 2025 (10mo ago)AI

首先从入口来解决问题。

在当今的信息化时代，数据以各种形式存在，其中文档是最常见的一种。然而，这些文档的格式五花八门，从Word、PDF到各种图片、甚至表格和公式，给信息处理带来了巨大的挑战。

特别是在检索增强生成（RAG）技术中，文档格式的统一和内容解析是确保高质量输出的关键。

为什么呢？因为RAG需要处理来自多种来源的文档，而如果每种文档格式的解析逻辑都不同，整个系统将会变得异常复杂且难以维护。

一言以蔽之，我们必须“先能跑，再加速” 。在追求高级功能之前，首要任务是建立一个稳定、可靠的基础解析能力。

文档可以大致分为两类：结构化文档和非结构化文档。

结构化文档：像Word、Markdown、HTML等，这些文档格式都带有标记，直接存储了文本的组织结构信息，例如段落、单元格和表格。这使得它们相对容易被计算机直接处理和解析。
非结构化文档：像PDF文件在实际工作中通常是非结构化的。虽然我们用肉眼看PDF时，会觉得它有清晰的版式，但它在底层是以一种类似“打印”的指令流形式存储内容的，例如在某个坐标（50,700）上放置“Hello, World!”这个文本字符串。这就导致直接从PDF中提取结构化信息变得非常困难。

另外，对于AI而言，解析的难度还会因为文档内容的复杂性而增加。

比如，处理包含表格和数学公式的文件其难度远高于普通文本，而手写、扫描件和票据的识别难度也逐级递增。

AI不仅要看懂内容，更要学习并理解文档的格式。

也就是我们如何设计 Document Parsers。

可以借鉴一些开源框架的思想。一个优秀的技术方案，应该像一条责任链，将不同类型的文档解析任务分发给专门的Handler。

首先定义一个抽象的基类，比如，BaseExtractor，它包含一个统一的extract()方法接口。所有具体的文档解析器，例如WordExtractor和``PdfExtractor，都必须继承这个基类并实现这个方法。

这个统一的接口，就是RAG系统的文档入口，无论文件是Word还是PDF，都通过这个统一的门进入，后续的处理流程才能保持一致。

接着，针对不同的解析器：以Word和PDF为例：

Word文档（尤其是 .docx格式）是Open XML格式，本质上是一个压缩包，里面包含了多个XML文件，分别描述文档的各个部分，例如文本、图片和样式。

因此，解析Word的思路是：

拆解问题：理解文档中块的分布，以及块与块之间的关系。DOCX主文档的组成部分主要可以分为文件对象、文本对象、表对象、图片对象等等。
选择工具：使用像python-docx这样的库来解析文本。
处理逻辑：
- 提取文本：使用库直接解析段落中的文本。
- 处理图片：将图片保存到指定的文件夹中，并将其引用ID和HTML标签映射到一个字典里。
- 整合内容：在处理文档内容时，当遇到图片引用时，从字典中取出对应的HTML标签并插入到内容流中。最终生成的文档内容将包含文本和图片的HTML表示。

由于PDF的非结构化特性，解析需要更复杂的策略。

在完成了具体的解析器后，我们需要一个统一的处理器。这个处理器将承担责任链的调度功能。它会根据文件的扩展名，自动选择并调用对应的解析器（如Word解析器或PDF解析器）。所有解析器最终都返回一个统一格式的 Document对象，从而实现了整个流程的标准化。

重要的是，我们建立了一套可扩展的框架。当需要支持新的文件类型时（如.rtf、.tex等），我们只需新增一个继承自BaseExtractor的解析器，并在处理器中加入相应的调度逻辑即可。