[心得] PDF转Excel 使用Python + VBA

楼主: noworneverev (小朋友)   2020-06-26 23:02:41
# PDF2Excel用途
将PDF档案里的表格转成Excel格式输出,并搭配VBA将格式转成可运算的储存格。
## 下载(免安装)
PDF2Excel.exe: https://tinyurl.com/yaxku6bj
及搭配使用的VBA : https://tinyurl.com/yd7t5m9b
## Demo
短片演示: https://i.imgur.com/WCbBVIe.gif
影片演示: https://youtu.be/0vEI2oiTanM (含安装VBA增益集)
## 使用限制
此程式适用于无须OCR的PDF,且档案里的表格必须要有格线,仅测试于Windows作业系统。
## 使用方法
点开PDF2Excel.exe,无须安装,开启程式可能会需要点时间,选择PDF档案存放的资料夹
,批次转换资料夹内所有PDF档案成Excel档案,只转换PDF档案里的表格,文字区块一律
跳过,Excel工作表命名原则以PDF页码当作工作表名称,例如转换第一页的表格,
输出的Excel工作表名称为"Sheet1";若一页里侦测到多个表格,例如第三页有两个表格
,输出"Sheet3_1"、"Sheet3_2",PDF档案的表格若无格线将无法转出。
输出Excel档案后,使用上方提供的增益集(Text2Column.xlam),将字串转成Excel可运算
的储存格。
转换仅在本地端执行,无须担心资料外泄,若有疑虑请详下方原始码。
## 开发源由
近几天知道好像有客户在提供PBC时会是用PDF档案提供,虽然自己从来没遇过,
但曾身为查帐员,光想像就有点想哭QAQ,所以花了点时间写这支小程式,
此程式以Python开发,使用转换精准度最高的函式库,再搭配另一支VBA小程式,
可快速将档案转成查帐可使用的格式。
## 给开发者
以Python写成,关键的转换只有十几行程式,若已有Python环境可参考
PDFPlumber github的文件自行客制参数,若熟pandas可以再更进一步依照提取出的
资料另做处理。
pip install pdfplumber
pip install pandas
开放原始码:https://github.com/noworneverev/PDF2Excel
若觉得这个程式对你有帮助,可以帮小弟按个星星我会很开心<( ̄︶ ̄)>

Links booklink

Contact Us: admin [ a t ] ucptt.com