[问题] pip install pdfplumber遇到encoding问题 jasonhsu14 PTT批踢踢实业坊

[问题] pip install pdfplumber遇到encoding问题

楼主: jasonhsu14 (小健人) 2020-11-18 15:17:16

因工作需求
需要用读取pdf上的表格
虽然试用过tabula，但其显现的效果不太好
所以想尝试换用pdfplumber
但在pip install pdfplumber的过程中遇到ERROR
看起来是UniDecodeError的问题
'cp950' codec can't decode byte 0xe2 in position 4981: illegal multibyte
sequence
不知道如何pip 的时候解决这个问题.....
另外我的PYTHON是3.8
虽然上网GOOGLE过相关办法
sys.setdefaultencoding("utf-8")
但上述办法似乎在好几个版本前就被拿掉
所以还想请问版上大大有成功安装过pdfplumber的经验分享
或我该如何解决这个问题
或是面临稍微有点复杂的pdf表格，该如何读取
说是复杂，其实他就是没有明确的表格只用空格来区隔
所以导致我用tabula时候会某A栏的资料跑到隔壁栏去
先谢谢愿意看到这边了解我问题的版友们

作者: AndCycle (AndCycle) 2020-11-18 16:30:00

pip install UnicodeDecodeError #304pdfplumber 的 bug, 才刚修

作者: noworneverev (小朋友) 2020-11-18 21:14:00

我Python是3.7.4 pdfplumber是0.5.21装的时候没有问题之前要转表格写了个小工具可以给你参考https://github.com/noworneverev/PDF2Excel

作者: annheilong (方格子) 2020-11-19 17:47:00

Windows? 试试这篇 https://bit.ly/32ZNPul下载后修改 setup.py 再用 pip 安装

作者: froce (froce) 2020-11-21 15:16:00

嗯...以前我会叫你去改安装源码，现在我会叫你用docker或是wsl2然后win10 20H1以上应该在语言选项有一个使用unicode的beta功能可以试试

作者: x246libra (æ¥“) 2020-11-29 09:12:00

cp950噩梦啊，让我转linux的关键非常烦的编码问题，但没有简单肯定解法，浪费时间解这种问题，会很不爽，而且不同套件，可能都会遇到一次

继续阅读

[闲聊] youtube-dl 原地复活！chickengod [问题] SymPyDeprecationWarning: 讯息出现iread [问题] 有可能把任意尺寸的图片存到numpy阵列吗?art1 [问题] python 新手求教 txt输出问题ck237 [问题] input输入编号如何取得变量内容piligo [问题] df.apply是否有办法取得前一列的资料jasonhsu14 plotly 单一html显示多图fetobow Re: [闲聊] 把字串以固定长度分割ian15937 [闲聊] Guido van Rossum宣布加入微软LukeSkywaker Re: [心得] 入门：使用声音进行预测性维护catcatcatcat