[问题] 网页爬虫 UTF-8无法解析

楼主: KeyBoardKill (✩键✩盘✩戮✩)   2018-05-04 14:36:43
各位好
想请教一下各位,目前我正在爬一个Big5的网页,爬回来后使用
.encode('big5', 'ignore').decode('utf-8', 'ignore') 将其转码
但是中文字的部分,全部显示为乱数了,例如正常的名称是
Dell E2216H 21.5吋 Monitor(3年到府保)
但转换后变 Dell E2216H 21.5T Monitor(3~O) 这不知道什么东西.....
若是单纯使用 .encode('utf-8', 'ignore')的话则会全部转为字串值,但并不会解析成
中文字....
这会是我哪里做错了呢?恳请指点
https://i.imgur.com/yegep71.png
https://i.imgur.com/qPmMiyK.png
作者: ckc1ark (伪物)   2018-05-04 14:51:00
不处理就已经是字串了 你是要写档还是?环境是? 看起来他把big5的每个byte都encode成utf8 str
作者: uranusjr (←這人是超級笨蛋)   2018-05-04 15:25:00
你需要重想一下 encode decode 的意思, 如果有搞懂的话那行程式用看的就知道一定不对 (极端状况除外)
作者: ckc1ark (伪物)   2018-05-04 15:29:00
在WebSite = ... 后加一行WebSite.encoding = 'big5'试试看起来是一开始抓到的资料就encode错了
作者: cutekid (可爱小孩子)   2018-05-04 17:41:00
推 ck 大(Y)
作者: coeric ( )   2018-05-06 07:17:00

Links booklink

Contact Us: admin [ a t ] ucptt.com