当前位置:网站首页>一键提取pdf中的表格
一键提取pdf中的表格
2022-07-06 09:13:00 【zkkkkkkkkkkkkk】
前言:
因工作需要,现在需要将pdf中的表格原封不对的输出csv或者数据库表,然后开启了苦逼的调研之路。经过调研,目前支持从可编辑pdf中读取出表格的Python库有:pdfminer3k、tabula、pdfplumber 等。三个库都有瑕疵。但是比好用的话我还是更偏向 pdfplumber 。自我感觉pdfplumber 简单易于实现功能。下面文章是关于 pdfplumber 的介绍。如对另外两个Python库感兴趣的话可以自行查看相关资料。对于pdf中非可编辑(图片中表格识别)问题,可能这个库就帮不上你什么忙了。
目录
一、pdfplumber介绍
1.1、介绍
先看一段官方介绍:pdfplumber支持垂直查看PDF,查看每个文本字符、矩形和行的详细信息。 附加功能:表提取和可视化调试。最适合机器生成的,而不是扫描的pdf文件。总体来说pdfplumber是一个集多种功能为一身的pdf处理工具。
1.2、代码开源git地址
1.3、官方文档
1.4、安装方式
pip install pdfplumber
二、简单使用
2.1、数据集介绍
数据为交易流水,pdf表格为可编辑。目的是将表格里的数据提取出来。
2.2、代码实现
import pdfplumber
# path = 'D:\\202104147187110045_1.pdf'
path = '../recognize_img/demo_img/有框表格可编辑.pdf'
pdf = pdfplumber.open(path)
# 获取pdf页数对象
print(pdf.pages) # [<Page:1>]
count = 0
for page in pdf.pages:
count += 1
# page.extract_text()可以抓取当前页的全部信息,因为内容较多就先注释。
# print(page.extract_text())
for table in page.extract_tables():
for row in table:
print(row)
print(f'============ 第{count}页解析结束 ============')
# 转为dataframe输出
# pass
pdf.close()
3.3、结果输出
结果是以每行列表的形式输出的。如果有需要csv或者数据库需求的话,可以先将下面的数据转为dataframe,然后再输出到目标源。
边栏推荐
- Moteur de stockage mysql23
- API learning of OpenGL (2003) gl_ TEXTURE_ WRAP_ S GL_ TEXTURE_ WRAP_ T
- Global and Chinese markets of static transfer switches (STS) 2022-2028: Research Report on technology, participants, trends, market size and share
- [free setup] asp Net online course selection system design and Implementation (source code +lunwen)
- Django运行报错:Error loading MySQLdb module解决方法
- There are three iPhone se 2022 models in the Eurasian Economic Commission database
- Postman Interface Association
- Have you mastered the correct posture of golden three silver four job hopping?
- Install MySQL for Ubuntu 20.04
- 35 is not a stumbling block in the career of programmers
猜你喜欢
Mysql22 logical architecture
How to find the number of daffodils with simple and rough methods in C language
MySQL20-MySQL的数据目录
Did you forget to register or load this tag 报错解决方法
CSDN markdown editor
Postman environment variable settings
Mysql28 database design specification
LeetCode #461 汉明距离
Moteur de stockage mysql23
Copie maître - esclave MySQL, séparation lecture - écriture
随机推荐
Pytorch RNN actual combat case_ MNIST handwriting font recognition
MySQL26-性能分析工具的使用
Esp8266 at+cipstart= "", "", 8080 error closed ultimate solution
虚拟机Ping通主机,主机Ping不通虚拟机
Generate PDM file from Navicat export table
1. Mx6u learning notes (VII): bare metal development (4) -- master frequency and clock configuration
Ansible practical Series III_ Task common commands
C language string function summary
Mysql21 - gestion des utilisateurs et des droits
CSDN question and answer module Title Recommendation task (I) -- Construction of basic framework
Navicat 导出表生成PDM文件
MySQL18-MySQL8其它新特性
[recommended by bloggers] background management system of SSM framework (with source code)
CSDN question and answer tag skill tree (II) -- effect optimization
IDEA 导入导出 settings 设置文件
Moteur de stockage mysql23
API learning of OpenGL (2004) gl_ TEXTURE_ MIN_ FILTER GL_ TEXTURE_ MAG_ FILTER
Navicat 導出錶生成PDM文件
JDBC原理
Swagger, Yapi interface management service_ SE