反差推特一个PDF转Markdown器具，高精确识别，自动去干涉元素，和LLM更配哦！Star 15K ！

发布日期：2025-04-01 12:56 点击次数：90

咫尺LLM（大型说念话模子）应用的普遍使用和落地，Markdown步地的文档是多样LLM和RAG（检索增强生成）偏疼反差推特，主要体咫尺以下两个方面：

当先，Markdown是一种轻量级的瑰丽说念话，具备简洁性和易读易写的性情，使得它成为编写和存储文档的理念念接收，越过是当这些文档需要通过LLM进行治理或通过RAG模子进行增强时。

其次，Markdown的结构化性情使其在进行文本治理时愈加高效。举例，向量化文档时，需要凭证标题层级对Markdown文献进行结构化分割，这种方法的结构化分割保留了文本的高下文和结构信息，这关于RAG模子来说绝顶贫瘠，有助于擢升文本向量化和RAG检索的后果。

不同于Markdown，PDF步地岂论在粗浅办公治理，如故在大模子、RAG场景治理下，皆不太受“接待”。是以，好多时候，咱们需要将PDF先作念Markdown步地调节后，再在RAG或者大模子中使用。是以今天给环球先容的即是一个大略将PDF步地文档快速高精度的转成Markdown步地的器具-Marker

01 — Marker 先容

一个开源、先进的PDF调节器具，它期骗深度学习工夫将PDF文献高保真地调节成Markdown步地。大略治理多种说念话，自动去除页眉页脚等非内容元素，并相沿表格、代码块和图像的步地化。Marker在保捏原有文档结构的同期，提供了快速准确的调节后果。

图片

🏠 技俩信息

#Github地址https://github.com/VikParuchuri/marker#技俩官网地址https://www.datalab.to/marker

图片

🚀功能性情

多步地相沿：大略将PDF文献调节为Markdown步地，同期相沿竹素、科学论文等多种文档类型。

全说念话相沿：不限定说念话，可以治理所有这个词说念话的文档。

自动化清算：自动去除PDF中的页眉、页脚和其他非内容元素，欧美性爱区提高Markdown输出的清洁度。

表格和代码步地化：大略识别并步地化PDF中的表格和代码块，保捏原有结构。

图像索求：在调节经过中，大略索求PDF中的图像，并将它们保存为Markdown相沿的步地。

公式调节：将PDF中的大多数数学方程调节为LaTeX步地，便于在Markdown中展示。

硬件兼容性：相沿在GPU、CPU或MPS（Metal Performance Shaders）上初始，以适合不同用户的硬件环境。

性能优化：仅在必要时使用深度学习模子，以提高调节速率并优化准确率。

API干事：提供托管API干事，相沿PDF、Word文档和PowerPoint的调节。

🛠 治理经过

图片

文本索求：Marker当先使用OCR工夫索求PDF文献中的文本。若是PDF文献包含图像，将使用Tesseract或SURYA等OCR器具进行文本识别。

页面布局检测：使用SURYA等深度学习模子来检测页面布局和细目阅读章程。这有助于Marker观点文档的结构，举例永别标题、正文、表格等。

内容清洗与步地化：通过一系列启发式章程和深度学习模子（如texify）对索求的文本进行清洗和步地化。这包括去除不需要的元素、步地化文本块、治理表格和代码块等。

表格和代码块治理：Marker大略识别PDF中的表格并将其调节为Markdown步地的表格。同期，它也能识别和步地化代码块。

图像索求与保存：Marker会索求PDF中的图像，并将它们保存为与Markdown兼容的步地。

公式调节：Marker将PDF中的数学公式调节为LaTeX步地，以便于在Markdown中展示。

组合与后治理：在完成上述要领后，Marker将各个部分组合起来，并进行后治理，以确保最终的Markdown文献步地正确、整洁。

02— Marker 安设和使用

一、环境条目

需要 Python 3.9+ 和 PyTorch。若是莫得CPU，需要先安设 CPU 版块的 torch。

pip3 install torch torchvision torchaudio

二、安设 Marker

pip install marker-pdf

可选安设：若是念念使用可选的ocrmypdfOCR 后端，需要安设OCRMyPDF。

三、建树（可选，默许也可）

诞生环境变量：可以在marker/settings.py中检查和建树诞生，也可以使用环境变量来隐蔽诞生。

自动检测成立：marker会自动检查部署的干事器，然而可以隐蔽此诞生。举例，TORCH_DEVICE=cuda。

若是使用 GPU，请诞生INFERENCE_RAM为 GPU VRAM（每个 GPU）。举例，有 16 GB 的 VRAM，诞生INFERENCE_RAM=16。

凭证文档类型，marker 每个任务的平均内存使用量可能会略有不同。若是发现任务因GPU不及造作而失败，可以颐养VRAM_PER_TASK此值。

诞生 OCR 引擎：默许情况下，Marker 使用 suryaOCR。若是念念要更快的 OCR，可以诞生OCR_ENGINE为ocrmypdf。若是不需要 OCR，可以诞生OCR_ENGINE为None。

四、使用

调节单个文献

marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English

--batch_multiplier是若是有独特的 VRAM，默许批治理大小要乘以的数值。数字越大，占用的 VRAM 越多，但治理速率越快。默许诞生为 2。默许批治理大小将占用约 3GB 的 VRAM。

--max_pages是要治理的最大页数。忽略此项可调节通盘文档。

--langs是文档顶用于 OCR 的说念话的逗号分隔列表确保DEFAULT_LANG诞生合适文档。OCR 相沿的说念话列表见下方沟通。若是需要 OCR，瑰丽可以使用任何说念话。

加多撸#相沿的说念话勾通显露https://github.com/VikParuchuri/surya/blob/master/surya/languages.py调节多个文献

marker /path/to/input/folder /path/to/output/folder --workers 10 --max 10 --metadata_file /path/to/metadata.json --min_length 10000

--workers是一次要调节的 PDF 数目。默许情况下，此值诞生为 1，但可以加多此值以加多并发，但代价是加多 CPU/GPU 使用率。

--max是要调节的 PDF 的最大数目。不祥此项可调节文献夹中的所有这个词 PDF。

--min_length是需要从 PDF 中索求的最少字符数，然后才进行治理。若是要治理大皆 PDF，提出诞生此项，以幸免对大部分是图像的 PDF 进行 OCR。

--metadata_file是存放关系 PDF元数据的JSON文献的可选旅途。若是莫得使用默许即可。

03— Marker 践诺后果展示

本文部署Marker的机器为Ubuntu操作系统，4C8G建树（诞生--batch_multiplier为1），无GPU。测试了一个60页的PDF文档。合座调节时辰破耗了15分钟附近。

调节前的PDF原文献截图：

图片

调节后Markdown文献截图：

图片

基本可见以下几点调节后的后果：

页眉页脚的信息皆仍是去除；

文档中的水印也自动去除（图片中的水印无法去除）；

PDF论文格局的附近编排，自动索求况且整合为高下编排，可读性更好；

索求后的Markdown文献夹包含了PDF文献中的图片，调节后的json文献，md文献：

图片

04— 终末

总而言之，Marker确乎是一个功能盛大的PDF到Markdown调节器具，它不仅大略精确地识别表格、进行方程式的OCR，还大略去除PDF中的页眉页脚、水印等无谓要的元素反差推特，况且相沿在GPU、CPU或MPS上初始，治理速率和效劳也很可以。若是赶巧你也有这方面的需求化，不妨试试吧！

本站仅提供存储干事，所有这个词内容均由用户发布，如发现存害或侵权内容，请点击举报。

上一篇：巨乳探花芙莉莲2定档！2026年最值得期待的一波动画！

下一篇：探花黑丝普源精电(688337)年报：2024年职工东说念主均薪酬38.05万元，同比大幅普及

av天堂电影网

迪丽热巴 ai换脸

反差推特一个PDF转Markdown器具，高精确识别，自动去干涉元素，和LLM更配哦！Star 15K ！

av天堂电影网

迪丽热巴 ai换脸

反差 推特 一个PDF转Markdown器具，高精确识别，自动去干涉元素，和LLM更配哦！Star 15K ！

反差推特一个PDF转Markdown器具，高精确识别，自动去干涉元素，和LLM更配哦！Star 15K ！