首页 迪丽热巴 ai换脸 杨超越 ai换脸 lisa ai换脸 ai换脸 av ai换脸 porn ai换脸
  • 首页
  • 迪丽热巴 ai换脸
  • 杨超越 ai换脸
  • lisa ai换脸
  • ai换脸 av
  • ai换脸 porn
  • ai换脸
  • 迪丽热巴 ai换脸

    你的位置:av天堂电影网 > 迪丽热巴 ai换脸 > 反差 推特 一个PDF转Markdown器具,高精确识别,自动去干涉元素,和LLM更配哦!Star 15K !

    反差 推特 一个PDF转Markdown器具,高精确识别,自动去干涉元素,和LLM更配哦!Star 15K !

    发布日期:2025-04-01 12:56    点击次数:90

    反差 推特 一个PDF转Markdown器具,高精确识别,自动去干涉元素,和LLM更配哦!Star 15K !

    咫尺LLM(大型说念话模子)应用的普遍使用和落地,Markdown步地的文档是多样LLM和RAG(检索增强生成)偏疼反差 推特,主要体咫尺以下两个方面:

    当先,Markdown是一种轻量级的瑰丽说念话,具备简洁性和易读易写的性情,使得它成为编写和存储文档的理念念接收,越过是当这些文档需要通过LLM进行治理或通过RAG模子进行增强时。

    其次,Markdown的结构化性情使其在进行文本治理时愈加高效。举例,向量化文档时,需要凭证标题层级对Markdown文献进行结构化分割,这种方法的结构化分割保留了文本的高下文和结构信息,这关于RAG模子来说绝顶贫瘠,有助于擢升文本向量化和RAG检索的后果。

    不同于Markdown,PDF步地岂论在粗浅办公治理,如故在大模子、RAG场景治理下,皆不太受“接待”。是以,好多时候,咱们需要将PDF先作念Markdown步地调节后,再在RAG或者大模子中使用。是以今天给环球先容的即是一个大略将PDF步地文档快速高精度的转成Markdown步地的器具-Marker

    01 —  Marker 先容 

    一个开源、先进的PDF调节器具,它期骗深度学习工夫将PDF文献高保真地调节成Markdown步地。大略治理多种说念话,自动去除页眉页脚等非内容元素,并相沿表格、代码块和图像的步地化。Marker在保捏原有文档结构的同期,提供了快速准确的调节后果。

    图片

    🏠  技俩信息

    #Github地址https://github.com/VikParuchuri/marker#技俩官网地址https://www.datalab.to/marker

    图片

    🚀功能性情

    多步地相沿:大略将PDF文献调节为Markdown步地,同期相沿竹素、科学论文等多种文档类型。

    全说念话相沿:不限定说念话,可以治理所有这个词说念话的文档。

    自动化清算:自动去除PDF中的页眉、页脚和其他非内容元素,欧美性爱区提高Markdown输出的清洁度。

    表格和代码步地化:大略识别并步地化PDF中的表格和代码块,保捏原有结构。

    图像索求:在调节经过中,大略索求PDF中的图像,并将它们保存为Markdown相沿的步地。

    公式调节:将PDF中的大多数数学方程调节为LaTeX步地,便于在Markdown中展示。

    硬件兼容性:相沿在GPU、CPU或MPS(Metal Performance Shaders)上初始,以适合不同用户的硬件环境。

    性能优化:仅在必要时使用深度学习模子,以提高调节速率并优化准确率。

    API干事:提供托管API干事,相沿PDF、Word文档和PowerPoint的调节。

    🛠 治理经过

    图片

    文本索求:Marker当先使用OCR工夫索求PDF文献中的文本。若是PDF文献包含图像,将使用Tesseract或SURYA等OCR器具进行文本识别。

    页面布局检测:使用SURYA等深度学习模子来检测页面布局和细目阅读章程。这有助于Marker观点文档的结构,举例永别标题、正文、表格等。

    内容清洗与步地化:通过一系列启发式章程和深度学习模子(如texify)对索求的文本进行清洗和步地化。这包括去除不需要的元素、步地化文本块、治理表格和代码块等。

    表格和代码块治理:Marker大略识别PDF中的表格并将其调节为Markdown步地的表格。同期,它也能识别和步地化代码块。

    图像索求与保存:Marker会索求PDF中的图像,并将它们保存为与Markdown兼容的步地。

    公式调节:Marker将PDF中的数学公式调节为LaTeX步地,以便于在Markdown中展示。

    组合与后治理:在完成上述要领后,Marker将各个部分组合起来,并进行后治理,以确保最终的Markdown文献步地正确、整洁。

    02— Marker 安设和使用 

    一、环境条目

    需要 Python 3.9+ 和 PyTorch。若是莫得CPU,需要先安设 CPU 版块的 torch。

    pip3 install torch torchvision torchaudio

    二、安设 Marker

    pip install marker-pdf

    可选安设:若是念念使用可选的ocrmypdfOCR 后端,需要安设OCRMyPDF。

    三、建树(可选,默许也可)

    诞生环境变量:可以在marker/settings.py中检查和建树诞生,也可以使用环境变量来隐蔽诞生。

    自动检测成立:marker会自动检查部署的干事器,然而可以隐蔽此诞生。举例,TORCH_DEVICE=cuda。

    若是使用 GPU,请诞生INFERENCE_RAM为 GPU VRAM(每个 GPU)。举例,有 16 GB 的 VRAM,诞生INFERENCE_RAM=16。

    凭证文档类型,marker 每个任务的平均内存使用量可能会略有不同。若是发现任务因GPU不及造作而失败,可以颐养VRAM_PER_TASK此值。

    诞生 OCR 引擎:默许情况下,Marker 使用 suryaOCR。若是念念要更快的 OCR,可以诞生OCR_ENGINE为ocrmypdf。若是不需要 OCR,可以诞生OCR_ENGINE为None。

    四、使用

    调节单个文献

    marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English

    --batch_multiplier是若是有独特的 VRAM,默许批治理大小要乘以的数值。数字越大,占用的 VRAM 越多,但治理速率越快。默许诞生为 2。默许批治理大小将占用约 3GB 的 VRAM。

    --max_pages是要治理的最大页数。忽略此项可调节通盘文档。

    --langs是文档顶用于 OCR 的说念话的逗号分隔列表确保DEFAULT_LANG诞生合适文档。OCR 相沿的说念话列表见下方沟通。若是需要 OCR,瑰丽可以使用任何说念话。

    加多撸#相沿的说念话勾通显露https://github.com/VikParuchuri/surya/blob/master/surya/languages.py调节多个文献
    marker /path/to/input/folder /path/to/output/folder --workers 10 --max 10 --metadata_file /path/to/metadata.json --min_length 10000

    --workers是一次要调节的 PDF 数目。默许情况下,此值诞生为 1,但可以加多此值以加多并发,但代价是加多 CPU/GPU 使用率。

    --max是要调节的 PDF 的最大数目。不祥此项可调节文献夹中的所有这个词 PDF。

    --min_length是需要从 PDF 中索求的最少字符数,然后才进行治理。若是要治理大皆 PDF,提出诞生此项,以幸免对大部分是图像的 PDF 进行 OCR。

    --metadata_file是存放关系 PDF元数据的JSON文献的可选旅途。若是莫得使用默许即可。

    03— Marker 践诺后果展示 

    本文部署Marker的机器为Ubuntu操作系统,4C8G建树(诞生--batch_multiplier为1),无GPU。测试了一个60页的PDF文档。合座调节时辰破耗了15分钟附近。

    调节前的PDF原文献截图:

    图片

    调节后Markdown文献截图:

    图片

    基本可见以下几点调节后的后果:

    页眉页脚的信息皆仍是去除;

    文档中的水印也自动去除(图片中的水印无法去除);

    PDF论文格局的附近编排,自动索求况且整合为高下编排,可读性更好;

    索求后的Markdown文献夹包含了PDF文献中的图片,调节后的json文献,md文献:

    图片

    04— 终末 

    总而言之,Marker确乎是一个功能盛大的PDF到Markdown调节器具,它不仅大略精确地识别表格、进行方程式的OCR,还大略去除PDF中的页眉页脚、水印等无谓要的元素反差 推特,况且相沿在GPU、CPU或MPS上初始,治理速率和效劳也很可以。若是赶巧你也有这方面的需求化,不妨试试吧!

    本站仅提供存储干事,所有这个词内容均由用户发布,如发现存害或侵权内容,请点击举报。