[问题] 无法爬含中文的网址 clansoda PTT批踢踢实业坊

[问题] 无法爬含中文的网址

楼主: clansoda (小笨) 2016-08-16 20:54:46

还真是有点抱歉，整天来问的不是资料分析都是爬虫的问题
我今天遇到一个之前没遇过的问题就是当网页含中文的时候
xml里头GET是会发生一些怪怪的问题，我今天爬文章的时候发现
GET后得到的网页content会是unknown的型态，而使用content以后
会得到RAW型态的资料，而不是nodeset型态，想请问如何解决这样的问题呢
下面是一个范例网页，http://goo.gl/cc7EAI
感谢各位回复。

继续阅读