[问题] 无法爬含中文的网址

楼主: clansoda (小笨)   2016-08-16 20:54:46
还真是有点抱歉,整天来问的不是资料分析都是爬虫的问题
我今天遇到一个之前没遇过的问题就是当网页含中文的时候
xml里头GET是会发生一些怪怪的问题,我今天爬文章的时候发现
GET后得到的网页content会是unknown的型态,而使用content以后
会得到RAW型态的资料,而不是nodeset型态,想请问如何解决这样的问题呢
下面是一个范例网页,http://goo.gl/cc7EAI
感谢各位回复。

Links booklink

Contact Us: admin [ a t ] ucptt.com