[问题]Content-Encoding:gzip 爬虫如何解压缩 processior PTT批踢踢实业坊

[问题]Content-Encoding:gzip 爬虫如何解压缩

楼主: processior (korman) 2016-10-14 23:47:33

最近在写一只爬虫程式
遇到有些网站是采用gzip压缩后再传送资料
如果用python3 开启
cj = Http_Cok.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
res = urllib.request.Request(html,headers = Header_data())
data = opener.open(res).read()
print(data)
都是十六进制的编码，到网络上google 好像是要先解压缩
否则beautifulsoup也无法解读，毕竟不是utf-8 格式
网络上的解法试了也没用大部分都是介绍pyton2的解法
不知道有人知道python3要如何解吗??

作者: kenduest (小州) 2016-10-15 02:35:00

用 requests 比较省事

作者: laputaflutin (很恐怖，不要问) 2016-10-15 08:08:00

requests+1, 看这种等级的python api doc根本享受

作者: eight0 (æ¬¸XD) 2016-10-15 12:29:00

data = gzip.decompress(data)用 requests 比较方便+1

作者: kenduest (小州) 2016-10-15 16:16:00

发问者之前那篇就有人给他建议了，看起来应该是没换以前个人用 python 一开始还不知道 requests 也是用 urllib, 真是搞死人，python 2,3 还稍微得改程式码用 requests 之后就一切轻松，且要 keep-alive 也简单

继续阅读

[问题] 初阶程式码dinoptt1993 Re: [问题] 高维矩阵内积newmilktea [问题] 高维矩阵内积ice80712 Re: [问题] 隐藏类别中的属性uranusjr [问题] 隐藏类别中的属性icetofux Re: [问题] DataFrame挑选特定值后的处理IMPOSSIBLEr [问题] DataFrame挑选特定值后的处理jimmy15923 [问题] django的csrf_tokenvanchy [问题]已解决寻找文章匹配的字出现次数Dyewiz [问题] jupyter 出现in[*]不能执行hesitate82