[问题] 网页中部份中文字符影响爬虫

楼主: liquidbox (樹枝擺擺)   2019-01-31 18:01:02
大家好,我是Python自学者,虽然习惯自己上网找答案,
但很多基本观念可能没有学到或学好,
所以现下出了一个我不知如何在网络上找答案的问题
我在爬某政府网页时,发现若网页中包含某些中文字符,如
https://ctext.org/dictionary.pl?if=gb&char=%E3%95%A1
https://ctext.org/dictionary.pl?if=gb&char=%F0%A4%A5%82
Python就会无法读取该字符之后的网页原始码,
以致在该字符前的元素可正常定位,但该字符后的元素用xpath都定位不到
该网页有写charset=big5,所以我试着先把网页原始码重新编码,如:
str.decode('bi5').encode('utf8')
但就会出现编码失败
而这些奇怪字符在Chrome上可正常显示,在Edge上会变缺字,这两个字也无法贴上批踢踢
若用Excel查,第一个字在Excel上用code查是64386,第二个字的code是63(相当于缺字)
想请问这些奇怪的字符是因为原本就不在unicode或big5字符集里头吗?
因为某政府网页中有这两个怪字的数量不低,我无法以个案处理,
不知道是否有什么办法可以正常处理,感谢
作者: eight0 (欸XD)   2019-01-31 18:04:00
试试 big5-hkscs? https://is.gd/3FFpLq
作者: f496328mm (为什么会流泪)   2019-01-31 19:30:00
code贴来看看
作者: BZnoo (Uba)   2019-01-31 20:22:00
BIG-5尚有著名的许功盖问题,也值得研究一下 XD
作者: shala (沙罗)   2019-01-31 21:05:00
str不能decode吧。要先encode再decode网页是utf-8,应该用utf-8编码就可以输出了
作者: f496328mm (为什么会流泪)   2019-01-31 23:24:00
你存下来就是乱码了你干脆直接给网址,说不定是你存的问题
作者: ckc1ark (伪物)   2019-02-01 17:22:00
兆峯建筑师事务所 不过看起来档案用的也不是big5-hkscshttp://yilan-archi.org.tw/show_member.php?no=00107这个就是big5-hkscs了感觉是你这边抓的网页编码已经出问题

Links booklink

Contact Us: admin [ a t ] ucptt.com