AI实现智能客服第6节:RAG文档导入之MinerU解析PDF为Markdown文档
在之前的文章中,我分享了一些内容,那么我们先来回顾下这些知识内容,以便打造我们的知识地图。
前言
来看一段AI大模型对它的介绍
在之前的文章中,我分享了一些内容,那么我们先来回顾下这些知识内容,以便打造我们的知识地图。

在之前的文章中:
在软件层面我分享了FastGPT、N8N。
在知识数据处理方面,我分享了RAG系统中常见的FAQ类问题的处理建设、抽取网页HTML类的处理建设。
在RAG方面,分享了RAG的基础知识与原理、以及RAG优化增强中的查询扩展的查询重写
在业务工作流方面,我分享了问题分类、指代消解、AI工作流的基础配置。
那么本节,我继续分享下在做AI大模型客服的过程中,一个重要的数据处理知识:PDF转Markdown。
实际的企业中,知识不仅仅来源于业务系统的数据库,还有业务人员、公司组织中存在的PDF文件、Excel文件、Word文件、PPT文件,这些在大模型客服这种场景下,基本都是需要导入到知识库中,从而实现客服场景的数据知识扩充。
例如华为网站上的这种资料中心中的PDF文件:

假设需要做华为的售前客服,除了需要数据库中的数据之外,这些产品的PDF数据也需要纳入到知识库中,从而给用户提供解决方案和问题。
我们知道RAG系统的第一道关卡为数据导入,数据导入的质量和方式对我们的最终结果也是有影响的:

那么我们在做AI客服系统这类的RAG的时候,其中一个优化目标就是对文档的解析:

大语言模型(LLM)驱动的检索增强生成(RAG)技术中确保能够从源文档中快速、精准地提取内容,对于提高最终输出的质量至关重要。在实际工作场景中,非结构化数据远比结构化数据丰富。但如果这些海量数据不能被解析,其巨大价值将无法发掘,其中 PDF 文档尤为突出。
PDF文档为什么不好解析呢,本质是由于这种文档不是结构化的文档,没有固定的结构可以让开发人员读取,反而是那种常见的Word、Excel、Markdown文档,更具备结构化知识:

那么这些PDF文件,如何更好进行解析呢,本文分享下目前企业中使用到的MinerU。
02
MinerU介绍
基本介绍
本节介绍一个PDF转Markdown的软件:MinerU,这个软件已经在很多公司的生产环境使用。
企业中除了数据库的知识数据外,还有大量的企业对外的产品文档、帮助手册,而这些文件也需要存储到AI的知识库中。MinurU能够非常较大程度的解析各种PDF文件为Markdown格式,同时识别里面的各种元素。免费全能的文档解析神器。精准解析、高效提取,为你带来更加流畅、准确的解析体验
项目的主页为:https://github.com/opendatalab/MinerU
项目的网站为:https://mineru.net/
截至2025年6月15日,目前Github的Star数量为35K,同时也发布了MinerU的2.x版本。

官方介绍如下:
**A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。**MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。
官网截图如下:

为什么我们用这个来解析PDF文件呢,在于我们的业务场景需要保留原始的文档的结构,从而形成结构化的知识,存储到FastGPT中,而如果直接处理转换获取到的都是文字性的内容。丢失了类里面的各种细节,比如公式、图片等等。
主要功能
- 删除页眉、页脚、脚注、页码等元素,确保语义连贯
- 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
- 保留原文档的结构,包括标题、段落、列表等
- 提取图像、图片描述、表格、表格标题及脚注
- 自动识别并转换文档中的公式为LaTeX格式
- 自动识别并转换文档中的表格为HTML格式
- 自动检测扫描版PDF和乱码PDF,并启用OCR功能
- OCR支持84种语言的检测与识别
- 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
- 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
- 支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
- 兼容Windows、Linux和Mac平台
通过这个功能列表,我们大概知道了它的能力,那么企业中是如何用的呢?
这里我梳理了下面这张图,希望可以帮助到大家理解:

首先我们看下非常简单的基于客户端的玩法可以快速体验,这个对于很多人已经足够了,完成可以手动处理完文件后,再上传到FastGPT知识库中。
目前基于MinerU的客户端也可以完成我们的转换处理需求,对于客服系统中,数据处理和导入是第一个步骤,这个也是RAG知识库中经常需要做的工作。
本节,我们手动处理:

其核心部分包括:
-
Magic-PDF
将 PDF(包括扫描版)精准转换为 Markdown 格式,保留标题、段落、列表等结构,自动移除页眉、页脚、页码,支持图像、表格提取及公式转 LaTeX。
-
Magic-Doc
解析网页、电子书(如 epub、mobi),提取图文、表格及多语言内容(支持 176 种语言)。
-
多模态处理
内置 OCR 技术,可识别 84 种语言的扫描文档,自动纠正乱码,适配复杂排版。
准备物料
在此之前,我们可以准备一些PDF文件,可以如下类型的:
(1)、经过PPT产生的PDF文件
(2)、扫描出来的PDF文件
这里我使用的是PPT产生的PDF文件,样例如下:

MinerU客户端输出Markdown
首先访问官网,下载客户端:

然后打开软件:

然后导入我们的这个测试的PDF文件:

可以看到了输出的结果,再看看本地导出的文件格式:

可以看到针对我们的需求,导出了多种文件格式的数据。
其中images文件夹是从这个PDF中解析出来的图片文件,full.md是我们解析出来的Markdown文档。json文件则是JSON格式的解析结果。那有了这个数据,就可以方便的的处理PDF这种格式的数据知识了。
03
GPU服务器部署MinerU
刚才分享的内容是基于客户端形式的,在企业中,还是会部署服务端的形式。目前MinerU已经更新到了2.x版本,部署和操作都比较方便,这里我通过GPU服务器部署一下MinerU的方式演示一下如何安装。GPU服务器能够加速我们的解析转换的性能。这里我用的是AutoDL平台的服务器作为环境。
1、我们启动AutoDL平台后,默认已经是携带了Python的环境。因此我们需要先创建一个虚拟环境:
uv venv hz-mineru
然后激活该虚拟环境:
source hz-mineru/bin/activate
然后输入如下命令安装mineru
uv pip install "mineru[core]>=2.0.0" -i https://mirrors.aliyun.com/pypi/simple
安装完成后,输入如下命令将一个测试的PDF进行转换,并且从modelscope网站上拉取用于解析的模型。
mineru -p /opt/huawei.pdf -o /opt/huawei/ --source modelscope
转换完成后,我们也可以看到如下的目录结构:

这块具体的操作可以看一下:https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md
如需使用 sglang 加速 VLM 模型推理,请选择合适的方式安装完整版本:
uv pip install -U "mineru[all]" -i https://mirrors.aliyun.com/pypi/simple
既然已经有了Markdown的转换结果,那么比较真实的一个业务处理流程图会是什么样呢,这里我分享如下:

有了这种Markdown文件后,更容易会被AI大模型所理解和接收:

04
总结
在 AIGC 爆发的 2025 年,MinerU 的价值不仅在于提升个体效率,更在于打通了非结构化数据→大模型训练的完整链路。无论是构建个人/企业知识库,还是训练垂直领域 LLM,这款工具都将在智能化知识处理发挥重要作用。
解析PDF文件格式的时候,我们会遇到大量的挑战:

PDF文档解析工具,能够帮助我们极大程度上解决一下工作。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐




所有评论(0)