LLMs之gptpdf：gptpdf的简介、安装和使用方法、案例应用之详细攻略

LLMs之gptpdf：gptpdf的简介、安装和使用方法、案例应用之详细攻略

article2024/7/6 15:10:30/文章来源:https://blog.csdn.net/qq_41185868/article/details/140164812

LLMs之gptpdf：gptpdf的简介、安装和使用方法、案例应用之详细攻略

目录

gptpdf的简介

1、处理流程

第一步，使用 PyMuPDF 库，对 PDF 进行解析出所有非文本区域，并做好标记，比如:

第二步，使用视觉大模型（如 GPT-4o）进行解析，得到 markdown 文件。

gptpdf的安装和使用方法

1、安装

2、使用

解读test.py代码

3、API

gptpdf的案例应用

gptpdf的简介

gptpdf是一款主要使用视觉大语言模型（如 GPT-4o）将 PDF 解析为 markdown。我们的方法非常简单(只有293行代码)，但几乎可以完美地解析排版、数学公式、表格、图片、图表等。每页平均价格仅需0.013 美元，我们使用 GeneralAgent lib 与 OpenAI API 交互。pdfgpt-ui 是一个基于 gptpdf 的可视化工具。

Github地址：GitHub - CosmosShadow/gptpdf: Using GPT to parse PDF

1、处理流程

第一步，使用 PyMuPDF 库，对 PDF 进行解析出所有非文本区域，并做好标记，比如:

第二步，使用视觉大模型（如 GPT-4o）进行解析，得到 markdown 文件。

gptpdf的安装和使用方法

1、安装

pip install gptpdf

2、使用

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

更多内容请见 test/test.py

地址：https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

解读test.py代码

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称（不是 OpenAI 模型名称）
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3、API

parse_pdf(pdf_path, output_dir='./', api_key=None, base_url=None, model='gpt-4o', verbose=False)
将 pdf 文件解析为 markdown 文件，并返回 markdown 内容和所有图片路径列表。

pdf_path：pdf 文件路径
output_dir：输出目录。存储所有图片和 markdown 文件
api_key：OpenAI API 密钥（可选）。如果未提供，则使用 OPENAI_API_KEY 环境变量。
base_url：OpenAI 基本 URL。（可选）。如果未提供，则使用 OPENAI_BASE_URL 环境变量。
model：OpenAI API格式的多模态大模型，默认为 “gpt-4o”。如果您需要使用其他模型，例如 qwen-vl-max (尚未测试)

GLM-4V, 可以通过修改环境变量 OPENAI_BASE_URL 或指定API参数 base_url 来使用。 (已经测试)

您也可以通过将 base_url 指定为 https://xxxx.openai.azure.com/ 来使用 Azure OpenAI，api_key 是 Azure API 密钥，模型类似于 'azure_xxxx'，其中 xxxx 是部署的模型名称（不是 openai 模型名称）(已经测试)
verbose：详细模式
gpt_worker: gpt解析工作线程数，默认为1. 如果您的机器性能较好，可以适当调高，以提高解析速度。

gptpdf的案例应用

持续更新中……

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/769625.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

错误 [WinError 10013] 以一种访问权限不允许的方式做了一个访问套接字的尝试 python ping

错误 [WinError 10013] 以一种访问权限不允许的方式做了一个访问套接字的尝试 python ping

报错提示：错误 [WinError 10013] 以一种访问权限不允许的方式做了一个访问套接字的尝试用python做了一个批量ping脚本，在windows专业版上没问题，但是到了windows服务器就出现这个报错解决方法：右键管理员身份运行这个脚本 …

阅读更多...

使用 PCA 可视化数据的分类能力

使用 PCA 可视化数据的分类能力

使用 PCA 探索数据分类的效果（使用 Python 代码） 「AI秘籍」系列课程： 人工智能应用数学基础人工智能Python基础人工智能基础核心知识人工智能BI核心知识人工智能CV核心知识主成分分析 (PCA) 是数据科学家使用的绝佳工具。它可用于降低特征…

阅读更多...

年轻人为什么那么爱喝奶茶？

年轻人为什么那么爱喝奶茶？

作者 | 艾泊宇为什么年轻人那么爱喝奶茶？答案很简单：对他们来说，奶茶之于年轻人，正如白酒之于中年人。奶茶不仅仅是一种饮料，它已经演化成一种文化现象，代表着温暖和爱的象征，甚至在某种程度上…

阅读更多...

【机器学习】机器学习与电商推荐系统的融合应用与性能优化新探索

【机器学习】机器学习与电商推荐系统的融合应用与性能优化新探索

文章目录引言第一章：机器学习在电商推荐系统中的应用1.1 数据预处理1.1.1 数据清洗1.1.2 数据归一化1.1.3 特征工程 1.2 模型选择1.2.1 协同过滤1.2.2 矩阵分解1.2.3 基于内容的推荐1.2.4 混合推荐 1.3 模型训练1.3.1 梯度下降1.3.2 随机梯度下降1.3.3 Adam优化器 …

阅读更多...

热备路由HSRP与VRRP

热备路由HSRP与VRRP

一、什么是HSRP HSRP（Hot Standby Router Protocol）是Cisco的专有协议，用于实现网络中路由器的冗余和故障转移。通过HSRP，可以将多台路由器组成一个“热备份组”，形成一个虚拟路由器。在这个组内，只有一个…

阅读更多...

【自适应滤波系列四】回声消除(Acoustic Echo Cancellation, AEC)信号模型及其本质

【自适应滤波系列四】回声消除(Acoustic Echo Cancellation, AEC)信号模型及其本质

什么是回声关于回声的产生与传播，凌逆战(https://www.cnblogs.com/LXP-Never)大佬在其博客中阐述得很详细，可以去看他的博客，下面部分图片来源于其博客回声就是声音信号经过一系列反射之后，又听到了自己讲话的声音，这就是回声。一些回声是必要的，比如剧院里的音乐回声…

阅读更多...

Character.ai因内容审查流失大量用户、马斯克：Grok-3用了10万块英伟达H100芯片

Character.ai因内容审查流失大量用户、马斯克：Grok-3用了10万块英伟达H100芯片

ChatGPT狂飙160天，世界已经不是之前的样子。更多资源欢迎关注 1、爆火AI惨遭阉割，1600万美国年轻人失恋？Character.ai被爆资金断裂美国流行的社交软件Character.ai近期对模型进行大幅度内容审查，导致用户感到失望并开始流失。…

阅读更多...

2024阿里云大模型自定义插件(如何调用自定义接口)

2024阿里云大模型自定义插件(如何调用自定义接口)

1，自定义插件入口 2，插件定义：描述插件的参数 2.1，注意事项： 2.1.1，只支持json格式的参数；只支持application/JSON；如下图： 2.1.2，需要把接口描述进行修改&a…

阅读更多...

使用RNN模型构建人名分类器

使用RNN模型构建人名分类器

使用RNN模型构建人名分类器 1 项目需求和实现分析短文本分类问题 2 数据处理三部曲场景1：数据处理三部曲示意图场景2：三个字母onehot编码形状分析 3 构建RNN模型 4 构建训练函数并进行训练 - 有关模型、损失函数、优化器三者在pytorch中的表示 5…

阅读更多...

U-Net在影像组学:医学图像分割中的研究进展｜顶刊速递·24-07-04

U-Net在影像组学:医学图像分割中的研究进展｜顶刊速递·24-07-04

小罗碎碎念本期文献主题：U-Net在影像组学/医学图像分割中的研究进展 U-Net对于研究影像组学的老师/同学，应该非常熟悉，今天这期推文就是想系统的盘一盘它在医学图像分析中的应用情况。六篇文献最新的是上个月刚发表的，最旧的也是…

阅读更多...

java入门-基础语法（运算符）

java入门-基础语法（运算符）

运算符是对变量、字面量进行运算的符号 （一）基本的算术运算符、符号做连接符 （1）基本运算符：(加)， - （减）、 * （乘）、 / （除）、%&…

阅读更多...

DP：背包问题----0/1背包问题

DP：背包问题----0/1背包问题

文章目录 💗背包问题💛背包问题的变体🧡0/1 背包问题的数学定义💚解决背包问题的方法💙例子 💗解决背包问题的一般步骤？💗例题💗总结 ❤️❤️❤️❤️❤️博客主页&…

阅读更多...

什么是分库分表？它有哪些实现类型？

什么是分库分表？它有哪些实现类型？

假如你正在使用关系型数据库开发一款健康类系统。业务发展很好，系统有很多活跃的新老用户，这些用户会和平台的医生团队进行交互，每天可能会生成数万甚至数十万级别的业务数据。这样的话，随着数据量越来越大，系统中的某…

阅读更多...

Java项目：基于SSM框架实现的游戏攻略网站系统分前后台【ssm+B/S架构+源码+数据库+毕业论文+任务书】

Java项目：基于SSM框架实现的游戏攻略网站系统分前后台【ssm+B/S架构+源码+数据库+毕业论文+任务书】

一、项目简介本项目是一套基于SSM框架实现的游戏攻略网站系统包含：项目源码、数据库脚本等，该项目附带全部源码可作为毕设使用。项目都经过严格调试，eclipse或者idea 确保可以运行！ 该系统功能完善、界面美观、操作简单、功能…

阅读更多...

静态方法与实例方法的区别

静态方法与实例方法的区别

静态方法与实例方法的区别 1、静态方法（Static Methods）1.1 调用方式1.2 访问权限 2、实例方法（Instance Methods）2.1 调用方式2.2 访问权限 3、总结 💖The Begin💖点点关注，收藏不迷路&#x1…

阅读更多...

使用 Smart-doc 记录 Spring REST API

使用 Smart-doc 记录 Spring REST API

如果您正在使用 Spring Boot 开发 RESTful API，您希望让其他开发人员尽可能容易地理解和使用您的 API。文档是必不可少的，因为它为将来的更新提供了参考，并帮助其他开发人员与您的 API 集成。很长一段时间以来，记录 REST API 的方…

阅读更多...

用Python轻松转换Markdown文件为PDF文档

用Python轻松转换Markdown文件为PDF文档

Markdown，以其简洁的语法和易于阅读的特性，成为了许多作家、开发者和学生记录思想、编写教程或撰写报告的首选格式。然而，在分享或打印这些文档时，Markdown的纯文本形式可能无法满足对版式和布局的专业需求。而将Markdown转换为PD…

阅读更多...

模拟退火算法1——简介

模拟退火算法1——简介

模拟退火算法来源于固体退火原理，将固体加温至充分高，再让其徐徐冷却，加温时，固体内部粒子随温升变为无序状，内能增大，而徐徐冷却时粒子渐趋有序，在每个温度都达到平衡态，最后在常温…

阅读更多...

【C++】解决 C++ 语言报错：Stack Overflow

【C++】解决 C++ 语言报错：Stack Overflow

文章目录引言栈溢出（Stack Overflow）是 C 编程中常见且严重的错误之一。栈溢出通常发生在程序递归调用过深或分配过大的局部变量时，导致栈空间耗尽。栈溢出不仅会导致程序崩溃，还可能引发不可预测的行为。本文将深入探讨栈溢出…

阅读更多...

周下载量20万的npm包---store

周下载量20万的npm包---store

https://www.npmjs.com/package/store <script setup> import { onMounted } from vue import store from storeonMounted(() > {store.set(user, { name: xutongbao })let user store.get(user)console.log(user) //对象console.log(localStorage.getItem(user)) //…

阅读更多...

最新文章