[问题]Content-Encoding:gzip 爬虫如何解压缩

楼主: processior (korman)   2016-10-14 23:47:33
最近在写一只爬虫程式
遇到有些网站是采用gzip压缩后再传送资料
如果用python3 开启
cj = Http_Cok.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
res = urllib.request.Request(html,headers = Header_data())
data = opener.open(res).read()
print(data)
都是十六进制的编码,到网络上google 好像是要先解压缩
否则beautifulsoup也无法解读,毕竟不是utf-8 格式
网络上的解法试了也没用大部分都是介绍pyton2的解法
不知道有人知道python3要如何解吗??
作者: kenduest (小州)   2016-10-15 02:35:00
用 requests 比较省事
作者: laputaflutin (很恐怖,不要问)   2016-10-15 08:08:00
requests+1, 看这种等级的python api doc根本享受
作者: eight0 (欸XD)   2016-10-15 12:29:00
data = gzip.decompress(data)用 requests 比较方便+1
作者: kenduest (小州)   2016-10-15 16:16:00
发问者之前那篇就有人给他建议了,看起来应该是没换以前个人用 python 一开始还不知道 requests 也是用 urllib, 真是搞死人,python 2,3 还稍微得改程式码用 requests 之后就一切轻松,且要 keep-alive 也简单

Links booklink

Contact Us: admin [ a t ] ucptt.com