[问题] pip install pdfplumber遇到encoding问题

楼主: jasonhsu14 (小健人)   2020-11-18 15:17:16
因工作需求
需要用读取pdf上的表格
虽然试用过tabula,但其显现的效果不太好
所以想尝试换用pdfplumber
但在pip install pdfplumber的过程中遇到ERROR
看起来是UniDecodeError的问题
'cp950' codec can't decode byte 0xe2 in position 4981: illegal multibyte
sequence
不知道如何pip 的时候解决这个问题.....
另外我的PYTHON是3.8
虽然上网GOOGLE过相关办法
sys.setdefaultencoding("utf-8")
但上述办法似乎在好几个版本前就被拿掉
所以还想请问版上大大有成功安装过pdfplumber的经验分享
或我该如何解决这个问题
或是面临稍微有点复杂的pdf表格,该如何读取
说是复杂,其实他就是没有明确的表格 只用空格来区隔
所以导致我用tabula时候会某A栏的资料跑到隔壁栏去
先谢谢愿意看到这边了解我问题的版友们
作者: AndCycle (AndCycle)   2020-11-18 16:30:00
pip install UnicodeDecodeError #304pdfplumber 的 bug, 才刚修
作者: noworneverev (小朋友)   2020-11-18 21:14:00
我Python是3.7.4 pdfplumber是0.5.21装的时候没有问题 之前要转表格写了个小工具可以给你参考https://github.com/noworneverev/PDF2Excel
作者: annheilong (方格子)   2020-11-19 17:47:00
Windows? 试试这篇 https://bit.ly/32ZNPul下载后修改 setup.py 再用 pip 安装
作者: froce (froce)   2020-11-21 15:16:00
嗯...以前我会叫你去改安装源码,现在我会叫你用docker或是wsl2然后win10 20H1以上应该在语言选项有一个使用unicode的beta功能可以试试
作者: x246libra (楓)   2020-11-29 09:12:00
cp950噩梦啊,让我转linux的关键非常烦的编码问题,但没有简单肯定解法,浪费时间解这种问题,会很不爽,而且不同套件,可能都会遇到一次

Links booklink

Contact Us: admin [ a t ] ucptt.com