反差 推特 一个PDF转Markdown器具,高精确识别,自动去干涉元素,和LLM更配哦!Star 15K !
咫尺LLM(大型说念话模子)应用的普遍使用和落地,Markdown步地的文档是多样LLM和RAG(检索增强生成)偏疼反差 推特,主要体咫尺以下两个方面:
当先,Markdown是一种轻量级的瑰丽说念话,具备简洁性和易读易写的性情,使得它成为编写和存储文档的理念念接收,越过是当这些文档需要通过LLM进行治理或通过RAG模子进行增强时。
其次,Markdown的结构化性情使其在进行文本治理时愈加高效。举例,向量化文档时,需要凭证标题层级对Markdown文献进行结构化分割,这种方法的结构化分割保留了文本的高下文和结构信息,这关于RAG模子来说绝顶贫瘠,有助于擢升文本向量化和RAG检索的后果。
不同于Markdown,PDF步地岂论在粗浅办公治理,如故在大模子、RAG场景治理下,皆不太受“接待”。是以,好多时候,咱们需要将PDF先作念Markdown步地调节后,再在RAG或者大模子中使用。是以今天给环球先容的即是一个大略将PDF步地文档快速高精度的转成Markdown步地的器具-Marker
01 — Marker 先容一个开源、先进的PDF调节器具,它期骗深度学习工夫将PDF文献高保真地调节成Markdown步地。大略治理多种说念话,自动去除页眉页脚等非内容元素,并相沿表格、代码块和图像的步地化。Marker在保捏原有文档结构的同期,提供了快速准确的调节后果。
图片
🏠 技俩信息
#Github地址https://github.com/VikParuchuri/marker#技俩官网地址https://www.datalab.to/marker图片
🚀功能性情多步地相沿:大略将PDF文献调节为Markdown步地,同期相沿竹素、科学论文等多种文档类型。
全说念话相沿:不限定说念话,可以治理所有这个词说念话的文档。
自动化清算:自动去除PDF中的页眉、页脚和其他非内容元素,欧美性爱区提高Markdown输出的清洁度。
表格和代码步地化:大略识别并步地化PDF中的表格和代码块,保捏原有结构。
图像索求:在调节经过中,大略索求PDF中的图像,并将它们保存为Markdown相沿的步地。
公式调节:将PDF中的大多数数学方程调节为LaTeX步地,便于在Markdown中展示。
硬件兼容性:相沿在GPU、CPU或MPS(Metal Performance Shaders)上初始,以适合不同用户的硬件环境。
性能优化:仅在必要时使用深度学习模子,以提高调节速率并优化准确率。
API干事:提供托管API干事,相沿PDF、Word文档和PowerPoint的调节。
🛠 治理经过图片
文本索求:Marker当先使用OCR工夫索求PDF文献中的文本。若是PDF文献包含图像,将使用Tesseract或SURYA等OCR器具进行文本识别。
页面布局检测:使用SURYA等深度学习模子来检测页面布局和细目阅读章程。这有助于Marker观点文档的结构,举例永别标题、正文、表格等。
内容清洗与步地化:通过一系列启发式章程和深度学习模子(如texify)对索求的文本进行清洗和步地化。这包括去除不需要的元素、步地化文本块、治理表格和代码块等。
表格和代码块治理:Marker大略识别PDF中的表格并将其调节为Markdown步地的表格。同期,它也能识别和步地化代码块。
图像索求与保存:Marker会索求PDF中的图像,并将它们保存为与Markdown兼容的步地。
公式调节:Marker将PDF中的数学公式调节为LaTeX步地,以便于在Markdown中展示。
组合与后治理:在完成上述要领后,Marker将各个部分组合起来,并进行后治理,以确保最终的Markdown文献步地正确、整洁。
02— Marker 安设和使用一、环境条目
需要 Python 3.9+ 和 PyTorch。若是莫得CPU,需要先安设 CPU 版块的 torch。
pip3 install torch torchvision torchaudio
二、安设 Marker
pip install marker-pdf可选安设:若是念念使用可选的ocrmypdfOCR 后端,需要安设OCRMyPDF。
三、建树(可选,默许也可)
诞生环境变量:可以在marker/settings.py中检查和建树诞生,也可以使用环境变量来隐蔽诞生。
自动检测成立:marker会自动检查部署的干事器,然而可以隐蔽此诞生。举例,TORCH_DEVICE=cuda。
若是使用 GPU,请诞生INFERENCE_RAM为 GPU VRAM(每个 GPU)。举例,有 16 GB 的 VRAM,诞生INFERENCE_RAM=16。
凭证文档类型,marker 每个任务的平均内存使用量可能会略有不同。若是发现任务因GPU不及造作而失败,可以颐养VRAM_PER_TASK此值。
诞生 OCR 引擎:默许情况下,Marker 使用 suryaOCR。若是念念要更快的 OCR,可以诞生OCR_ENGINE为ocrmypdf。若是不需要 OCR,可以诞生OCR_ENGINE为None。
四、使用
调节单个文献
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English
--batch_multiplier是若是有独特的 VRAM,默许批治理大小要乘以的数值。数字越大,占用的 VRAM 越多,但治理速率越快。默许诞生为 2。默许批治理大小将占用约 3GB 的 VRAM。
--max_pages是要治理的最大页数。忽略此项可调节通盘文档。
--langs是文档顶用于 OCR 的说念话的逗号分隔列表确保DEFAULT_LANG诞生合适文档。OCR 相沿的说念话列表见下方沟通。若是需要 OCR,瑰丽可以使用任何说念话。
加多撸#相沿的说念话勾通显露https://github.com/VikParuchuri/surya/blob/master/surya/languages.py调节多个文献marker /path/to/input/folder /path/to/output/folder --workers 10 --max 10 --metadata_file /path/to/metadata.json --min_length 10000
--workers是一次要调节的 PDF 数目。默许情况下,此值诞生为 1,但可以加多此值以加多并发,但代价是加多 CPU/GPU 使用率。
--max是要调节的 PDF 的最大数目。不祥此项可调节文献夹中的所有这个词 PDF。
--min_length是需要从 PDF 中索求的最少字符数,然后才进行治理。若是要治理大皆 PDF,提出诞生此项,以幸免对大部分是图像的 PDF 进行 OCR。
--metadata_file是存放关系 PDF元数据的JSON文献的可选旅途。若是莫得使用默许即可。
03— Marker 践诺后果展示本文部署Marker的机器为Ubuntu操作系统,4C8G建树(诞生--batch_multiplier为1),无GPU。测试了一个60页的PDF文档。合座调节时辰破耗了15分钟附近。
调节前的PDF原文献截图:
图片
调节后Markdown文献截图:
图片
基本可见以下几点调节后的后果:
页眉页脚的信息皆仍是去除;
文档中的水印也自动去除(图片中的水印无法去除);
PDF论文格局的附近编排,自动索求况且整合为高下编排,可读性更好;
索求后的Markdown文献夹包含了PDF文献中的图片,调节后的json文献,md文献:
图片
04— 终末总而言之,Marker确乎是一个功能盛大的PDF到Markdown调节器具,它不仅大略精确地识别表格、进行方程式的OCR,还大略去除PDF中的页眉页脚、水印等无谓要的元素反差 推特,况且相沿在GPU、CPU或MPS上初始,治理速率和效劳也很可以。若是赶巧你也有这方面的需求化,不妨试试吧!
本站仅提供存储干事,所有这个词内容均由用户发布,如发现存害或侵权内容,请点击举报。