AI实现智能客服第6节：RAG文档导入之MinerU解析PDF为Markdown文档

在之前的文章中，我分享了一些内容，那么我们先来回顾下这些知识内容，以便打造我们的知识地图。

小天才学习机打游戏

1370人浏览 · 2025-06-20 22:42:13

小天才学习机打游戏 · 2025-06-20 22:42:13 发布

前言

来看一段AI大模型对它的介绍

在之前的文章中，我分享了一些内容，那么我们先来回顾下这些知识内容，以便打造我们的知识地图。

在之前的文章中：

在软件层面我分享了FastGPT、N8N。

在知识数据处理方面，我分享了RAG系统中常见的FAQ类问题的处理建设、抽取网页HTML类的处理建设。

在RAG方面，分享了RAG的基础知识与原理、以及RAG优化增强中的查询扩展的查询重写

在业务工作流方面，我分享了问题分类、指代消解、AI工作流的基础配置。

那么本节，我继续分享下在做AI大模型客服的过程中，一个重要的数据处理知识：PDF转Markdown。

实际的企业中，知识不仅仅来源于业务系统的数据库，还有业务人员、公司组织中存在的PDF文件、Excel文件、Word文件、PPT文件，这些在大模型客服这种场景下，基本都是需要导入到知识库中，从而实现客服场景的数据知识扩充。

例如华为网站上的这种资料中心中的PDF文件：

假设需要做华为的售前客服，除了需要数据库中的数据之外，这些产品的PDF数据也需要纳入到知识库中，从而给用户提供解决方案和问题。

我们知道RAG系统的第一道关卡为数据导入，数据导入的质量和方式对我们的最终结果也是有影响的：

那么我们在做AI客服系统这类的RAG的时候，其中一个优化目标就是对文档的解析：

大语言模型(LLM)驱动的检索增强生成(RAG)技术中确保能够从源文档中快速、精准地提取内容，对于提高最终输出的质量至关重要。在实际工作场景中，非结构化数据远比结构化数据丰富。但如果这些海量数据不能被解析，其巨大价值将无法发掘，其中 PDF 文档尤为突出。

PDF文档为什么不好解析呢，本质是由于这种文档不是结构化的文档，没有固定的结构可以让开发人员读取，反而是那种常见的Word、Excel、Markdown文档，更具备结构化知识：

那么这些PDF文件，如何更好进行解析呢，本文分享下目前企业中使用到的MinerU。

MinerU介绍

基本介绍

本节介绍一个PDF转Markdown的软件：MinerU，这个软件已经在很多公司的生产环境使用。

企业中除了数据库的知识数据外，还有大量的企业对外的产品文档、帮助手册，而这些文件也需要存储到AI的知识库中。MinurU能够非常较大程度的解析各种PDF文件为Markdown格式，同时识别里面的各种元素。免费全能的文档解析神器。精准解析、高效提取，为你带来更加流畅、准确的解析体验

项目的主页为：https://github.com/opendatalab/MinerU

项目的网站为：https://mineru.net/

截至2025年6月15日，目前Github的Star数量为35K，同时也发布了MinerU的2.x版本。

官方介绍如下：

**A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。**MinerU是一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式。

MinerU诞生于书生-浦语的预训练过程中，我们将会集中精力解决科技文献中的符号转化问题，希望在大模型时代为科技发展做出贡献。

官网截图如下：

为什么我们用这个来解析PDF文件呢，在于我们的业务场景需要保留原始的文档的结构，从而形成结构化的知识，存储到FastGPT中，而如果直接处理转换获取到的都是文字性的内容。丢失了类里面的各种细节，比如公式、图片等等。

主要功能

删除页眉、页脚、脚注、页码等元素，确保语义连贯
输出符合人类阅读顺序的文本，适用于单栏、多栏及复杂排版
保留原文档的结构，包括标题、段落、列表等
提取图像、图片描述、表格、表格标题及脚注
自动识别并转换文档中的公式为LaTeX格式
自动识别并转换文档中的表格为HTML格式
自动检测扫描版PDF和乱码PDF，并启用OCR功能
OCR支持84种语言的检测与识别
支持多种输出格式，如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
支持多种可视化结果，包括layout可视化、span可视化等，便于高效确认输出效果与质检
支持纯CPU环境运行，并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
兼容Windows、Linux和Mac平台

通过这个功能列表，我们大概知道了它的能力，那么企业中是如何用的呢？

这里我梳理了下面这张图，希望可以帮助到大家理解：

首先我们看下非常简单的基于客户端的玩法可以快速体验，这个对于很多人已经足够了，完成可以手动处理完文件后，再上传到FastGPT知识库中。

目前基于MinerU的客户端也可以完成我们的转换处理需求，对于客服系统中，数据处理和导入是第一个步骤，这个也是RAG知识库中经常需要做的工作。

本节，我们手动处理：

其核心部分包括：

Magic-PDF

将 PDF（包括扫描版）精准转换为 Markdown 格式，保留标题、段落、列表等结构，自动移除页眉、页脚、页码，支持图像、表格提取及公式转 LaTeX。
Magic-Doc

解析网页、电子书（如 epub、mobi），提取图文、表格及多语言内容（支持 176 种语言）。
多模态处理

内置 OCR 技术，可识别 84 种语言的扫描文档，自动纠正乱码，适配复杂排版。

准备物料

在此之前，我们可以准备一些PDF文件，可以如下类型的：

（1）、经过PPT产生的PDF文件

（2）、扫描出来的PDF文件

这里我使用的是PPT产生的PDF文件，样例如下：

MinerU客户端输出Markdown

首先访问官网，下载客户端：

然后打开软件：

然后导入我们的这个测试的PDF文件：

可以看到了输出的结果，再看看本地导出的文件格式：

可以看到针对我们的需求，导出了多种文件格式的数据。

其中images文件夹是从这个PDF中解析出来的图片文件，full.md是我们解析出来的Markdown文档。json文件则是JSON格式的解析结果。那有了这个数据，就可以方便的的处理PDF这种格式的数据知识了。

GPU服务器部署MinerU

刚才分享的内容是基于客户端形式的，在企业中，还是会部署服务端的形式。目前MinerU已经更新到了2.x版本，部署和操作都比较方便，这里我通过GPU服务器部署一下MinerU的方式演示一下如何安装。GPU服务器能够加速我们的解析转换的性能。这里我用的是AutoDL平台的服务器作为环境。

1、我们启动AutoDL平台后，默认已经是携带了Python的环境。因此我们需要先创建一个虚拟环境：

uv venv hz-mineru

然后激活该虚拟环境：

source hz-mineru/bin/activate

然后输入如下命令安装mineru

uv pip install "mineru[core]>=2.0.0" -i https://mirrors.aliyun.com/pypi/simple

安装完成后，输入如下命令将一个测试的PDF进行转换，并且从modelscope网站上拉取用于解析的模型。

mineru -p /opt/huawei.pdf -o /opt/huawei/ --source modelscope

转换完成后，我们也可以看到如下的目录结构：

这块具体的操作可以看一下：https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md

如需使用 sglang 加速 VLM 模型推理，请选择合适的方式安装完整版本：

uv pip install -U "mineru[all]" -i https://mirrors.aliyun.com/pypi/simple

既然已经有了Markdown的转换结果，那么比较真实的一个业务处理流程图会是什么样呢，这里我分享如下：

有了这种Markdown文件后，更容易会被AI大模型所理解和接收：

总结

在 AIGC 爆发的 2025 年，MinerU 的价值不仅在于提升个体效率，更在于打通了非结构化数据→大模型训练的完整链路。无论是构建个人/企业知识库，还是训练垂直领域 LLM，这款工具都将在智能化知识处理发挥重要作用。

解析PDF文件格式的时候，我们会遇到大量的挑战：

PDF文档解析工具，能够帮助我们极大程度上解决一下工作。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述