Yujun's Blog

RAG与Agent性能调优实践与思考

June 20, 2025 (2w ago)AI

RAG与Agent性能调优实践与思考

如何统一多源文档格式?

首先从入口来解决问题。

那么在 RAG 系统 中 入口怎么理解呢?

如果从定义来说,入口应该是 R 即:Retrieval 检索。但实际上我们做项目的时候,入口应该是先把文档放进知识库,即 索引 阶段。更具体来说:文档格式的处理为入口。

在检索增强生成(RAG)技术中,文档格式的统一和内容解析是确保高质量输出的关键环节。 RAG 需要处理来自多种来源的文档,比如:Word,PDF,图片,Excel。因此有效地解析这些文档是其成功应用的基础。

所以首先是要把这些格式的文档给统一了,使之后可以用同一套解析方法。

识别难度可以分为:

  1. 票据
  2. 扫描件
  3. 手写
  4. 文件里嵌入表格和数学公式

对 AI 的挑战:不但要看懂内容,还得学习格式!

那么问题来了,这些格式我们到底要不要去处理?或者什么时候处理?

一个良好的实践方式应该是:先有功能,再增强能力;先能跑,再加速;先统一解析逻辑,再逐个击破。

比如,在我们设计的RAG系统中,要设计的是统一格式,那么首先第一个,我们要先把所有能支持的格式给支持起来。其次才对每个不同的文件格式再进行增强它的解析能力。 先把文档能够进行解析,再去对解析的能力进行相应的优化,让它解析的更好;再解析的时候,争取解析Word,解析PPT,解析Excel,这些全都用同一套逻辑。但是更近一步,每个不同 的文件,再去逐个细化的进行编写。

为何要掌握多源文档格式?

  1. 提取带图片的Word、PDF等格式中的特定内容
  2. 增加对新格式的支持
  3. 避免信息丢失或误读
  4. 在后续检索与生成过程中提供更高质量的数据输入
  5. 提升信息检索效率:统一格式后,可以使用相同的索引方法(如倒排索引、向量索引)对所有文档进行处理,避免为每种格式单独开发检索逻辑,提高系统的可维护性和扩展性。

Word文件的特点

Comments