大家好,我是Python自学者,虽然习惯自己上网找答案,
但很多基本观念可能没有学到或学好,
所以现下出了一个我不知如何在网络上找答案的问题
我在爬某政府网页时,发现若网页中包含某些中文字符,如
https://ctext.org/dictionary.pl?if=gb&char=%E3%95%A1
https://ctext.org/dictionary.pl?if=gb&char=%F0%A4%A5%82
Python就会无法读取该字符之后的网页原始码,
以致在该字符前的元素可正常定位,但该字符后的元素用xpath都定位不到
该网页有写charset=big5,所以我试着先把网页原始码重新编码,如:
str.decode('bi5').encode('utf8')
但就会出现编码失败
而这些奇怪字符在Chrome上可正常显示,在Edge上会变缺字,这两个字也无法贴上批踢踢
若用Excel查,第一个字在Excel上用code查是64386,第二个字的code是63(相当于缺字)
想请问这些奇怪的字符是因为原本就不在unicode或big5字符集里头吗?
因为某政府网页中有这两个怪字的数量不低,我无法以个案处理,
不知道是否有什么办法可以正常处理,感谢