[问题] 爬虫 jsp网页 乱码

楼主: aaa7513231 (浑沌与秩序)   2016-03-14 21:03:26
大家好
这几天再爬一个jsp的网页
但爬到的内容中文部分都是乱码
不管我怎样编译都没办法辨识(转utf-8)
我在想是不是jsp的编码比较特别?
大概长这样
ªZc ÷ºXÄ¥c ±
我爬了一堆文,想破头也对python的编码快搞混了
想请大家帮忙想想,不知道问题是出在哪一段上
如果是用浏览器看网页是正常中文的
作者: hsnusonic (sonic)   2016-03-14 21:17:00
要看那个网页用什么encoding
楼主: aaa7513231 (浑沌与秩序)   2016-03-14 21:31:00
Accept-Encoding:gzip, deflate 应该是这个吧?我有尝试编译gzip 但一样乱码....
作者: kenduest (小州)   2016-03-15 13:06:00
可能交代一下抓取的方式,要不然很难猜你的问题另外要确认一下你所在的环境是在 windows or linux 上windows cmd 上一般默认编码都是 big5, 而 linux 上目前环境一般都 utf8, 终端机的编码也直接是 utf8若你抓取要显示的文字编码与工作显示环境编码不同会乱码至于1,2 说那个是压缩,我想应该是要问 charset 编码
楼主: aaa7513231 (浑沌与秩序)   2016-03-17 00:42:00
感谢K大!!! 我是使用windows环境的 所以是big5之前一直被utf-8给误导,以为都是使用他去编码的

Links booklink

Contact Us: admin [ a t ] ucptt.com