[问题] 网页中部份中文字符影响爬虫 liquidbox PTT批踢踢实业坊

[问题] 网页中部份中文字符影响爬虫

楼主: liquidbox (æ¨¹æžæ“ºæ“º) 2019-01-31 18:01:02

大家好，我是Python自学者，虽然习惯自己上网找答案，
但很多基本观念可能没有学到或学好，
所以现下出了一个我不知如何在网络上找答案的问题
我在爬某政府网页时，发现若网页中包含某些中文字符，如
https://ctext.org/dictionary.pl?if=gb&char=%E3%95%A1
https://ctext.org/dictionary.pl?if=gb&char=%F0%A4%A5%82
Python就会无法读取该字符之后的网页原始码，
以致在该字符前的元素可正常定位，但该字符后的元素用xpath都定位不到
该网页有写charset=big5，所以我试着先把网页原始码重新编码，如：
str.decode('bi5').encode('utf8')
但就会出现编码失败
而这些奇怪字符在Chrome上可正常显示，在Edge上会变缺字，这两个字也无法贴上批踢踢
若用Excel查，第一个字在Excel上用code查是64386，第二个字的code是63（相当于缺字）
想请问这些奇怪的字符是因为原本就不在unicode或big5字符集里头吗？
因为某政府网页中有这两个怪字的数量不低，我无法以个案处理，
不知道是否有什么办法可以正常处理，感谢

作者: eight0 (æ¬¸XD) 2019-01-31 18:04:00

试试 big5-hkscs? https://is.gd/3FFpLq

作者: f496328mm (为什么会流泪) 2019-01-31 19:30:00

code贴来看看

作者: BZnoo (Uba) 2019-01-31 20:22:00

BIG-5尚有著名的许功盖问题，也值得研究一下 XD

作者: shala (沙罗) 2019-01-31 21:05:00

str不能decode吧。要先encode再decode网页是utf-8，应该用utf-8编码就可以输出了

作者: f496328mm (为什么会流泪) 2019-01-31 23:24:00

你存下来就是乱码了你干脆直接给网址，说不定是你存的问题

作者: ckc1ark (伪物) 2019-02-01 17:22:00

兆峯建筑师事务所不过看起来档案用的也不是big5-hkscshttp://yilan-archi.org.tw/show_member.php?no=00107这个就是big5-hkscs了感觉是你这边抓的网页编码已经出问题

继续阅读

[问题] 封包好的exe档如何不指定路径在cmd执行caron0225 [问题] 重装Windows可以不重装Python吗？ggirls [问题] 读取会议文件遇到问题TZULIU [问题] BeautifulSoup 抓国旅卡网站资讯问题请教threeSecGun [问题] PYTHON可以写百家乐吗alan107boy [问题] 请问想查询高铁时刻表的问题chaotic0307 [问题] 两座标旋转的运算joeown66 [问题] 想学Python想问有没有推荐的书或网站ThereisBear [问题] 请问正规表达式有反向处理吗jijuan [问题] 不用Line Bot 让Line定时传讯息yoyololicon