当前位置:网站首页>C#/VB.NET:从 PDF 文档中提取所有表格
C#/VB.NET:从 PDF 文档中提取所有表格
2022-08-01 18:00:00 【InfoQ】
安装 Spire.PDF for .NET
从PDF文档中提取表格
using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;
namespace ExtractTable
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类的对象
PdfDocument pdf = new PdfDocument();
//加载PDF文档
pdf.LoadFromFile("sample.pdf");
//创建StringBuilder类的对象
StringBuilder builder = new StringBuilder();
//实例化PdfTableExtractor类的对象
PdfTableExtractor extractor = new PdfTableExtractor(pdf);
//声明一个PdfTable类的表格数组
PdfTable[] tableLists;
//遍历PDF页面
for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
{
//从页面提取表格
tableLists = extractor.ExtractTable(pageIndex);
//判断表格列表是否为空
if (tableLists != null && tableLists.Length > 0)
{
//遍历表格
foreach (PdfTable table in tableLists)
{
//获取表格中的行和列数
int row = table.GetRowCount();
int column = table.GetColumnCount();
//遍历表格行和列
for (int i = 0; i < row; i++)
{
for (int j = 0; j < column; j++)
{
//获取行和列中的文本
string text = table.GetText(i, j);
//写入文本到StringBuilder容器
builder.Append(text + " ");
}
builder.Append("\r\n");
}
}
}
}
//保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString());
}
}
}
Imports Spire.Pdf
Imports Spire.Pdf.Utilities
Imports System.IO
Imports System.Text
Namespace ExtractTable
Class Program
Private Shared Sub Main(args As String())
'实例化PdfDocument类的对象
Dim pdf As New PdfDocument()
'加载PDF文档
pdf.LoadFromFile("sample.pdf")
'创建StringBuilder类的对象
Dim builder As New StringBuilder()
'实例化PdfTableExtractor类的对象
Dim extractor As New PdfTableExtractor(pdf)
'声明一个PdfTable类的表格数组
Dim tableLists As PdfTable()
'遍历PDF页面
For pageIndex As Integer = 0 To pdf.Pages.Count - 1
'从页面提取表格
tableLists = extractor.ExtractTable(pageIndex)
'判断表格列表是否为空
If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
'遍历表格
For Each table As PdfTable In tableLists
'获取表格中的行和列数
Dim row As Integer = table.GetRowCount()
Dim column As Integer = table.GetColumnCount()
'遍历表格行和列
For i As Integer = 0 To row - 1
For j As Integer = 0 To column - 1
'获取行和列中的文本
Dim text As String = table.GetText(i, j)
'写入文本到StringBuilder容器
builder.Append(text & Convert.ToString(" "))
Next
builder.Append(vbCr & vbLf)
Next
Next
End If
Next
'保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString())
End Sub
End Class
End Namespace


边栏推荐
- 数字化采购管理系统开发:精细化采购业务流程管理,赋能企业实现“阳光采购”
- QLineEdit learning and use
- RecSys'22|CARCA: Cross-Attention-Aware Context and Attribute Recommendations
- 【报错】Uncaught (in promise) TypeError: Cannot read properties of undefined (reading ‘concat‘)
- 小贝拉机器人是朋友_普渡科技召开新品发布会,新一代送餐机器人“贝拉”温暖登场...
- 基于BiGRU和GAN的数据生成方法
- 成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
- EpiSci|片上系统的深度强化学习:神话与现实
- 【Day_12 0507】二进制插入
- 自定义注解实现日志打印时屏蔽特定字段不打印
猜你喜欢

研发团队数字化转型实践

【Error】Uncaught (in promise) TypeError: Cannot read properties of undefined (reading ‘concat’)

B005 - STC8 based single chip microcomputer intelligent street light control system

Shell nl命令详解(显示行号、读取文件)

Leetcode72. 编辑距离

以消费场景为驱动的CMDB要怎么建?

SQL的索引详细介绍

JVM运行时数据区与JMM内存模型是什么

GRUB2的零日漏洞补丁现已推出

C语言理论--笔试面试基础稳固
随机推荐
直播系统聊天技术(八):vivo直播系统中IM消息模块的架构实践
【Day_11 0506】求最大连续bit数
Detailed explanation of the working principle of crystal oscillator
md5sum源码 可多平台编译
指针和解引用
关于单应性矩阵的若干思考
Leetcode74. 搜索二维矩阵
MySQL 45 Talk | 09 How to choose common index and unique index?
tooltip 控件
Detailed explanation of DBPack SQL Tracing function and data encryption function
QT_QThread线程
GTK修改pixmap像素,提取pixmap像素RGB值
基于ORB-SLAM2的改进代码
2022年SQL大厂高频实战面试题(详细解析)
golang json returns null
极化微波成像概述2
食品安全 | 新鲜食品vs速食食品,哪一种是你的菜?
B005 – 基于STC8的单片机智能路灯控制系统
Leetcode72. Edit Distance
QT basic functions, signals, slots