PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题] 爬虫 jsp网页 乱码
楼主:
aaa7513231
(浑沌与秩序)
2016-03-14 21:03:26
大家好
这几天再爬一个jsp的网页
但爬到的内容中文部分都是乱码
不管我怎样编译都没办法辨识(转utf-8)
我在想是不是jsp的编码比较特别?
大概长这样
ªZc ÷ºXÄ¥c ±
我爬了一堆文,想破头也对python的编码快搞混了
想请大家帮忙想想,不知道问题是出在哪一段上
如果是用浏览器看网页是正常中文的
作者:
hsnusonic
(sonic)
2016-03-14 21:17:00
要看那个网页用什么encoding
楼主:
aaa7513231
(浑沌与秩序)
2016-03-14 21:31:00
Accept-Encoding:gzip, deflate 应该是这个吧?我有尝试编译gzip 但一样乱码....
作者:
kenduest
(小州)
2016-03-15 13:06:00
可能交代一下抓取的方式,要不然很难猜你的问题另外要确认一下你所在的环境是在 windows or linux 上windows cmd 上一般默认编码都是 big5, 而 linux 上目前环境一般都 utf8, 终端机的编码也直接是 utf8若你抓取要显示的文字编码与工作显示环境编码不同会乱码至于1,2 说那个是压缩,我想应该是要问 charset 编码
楼主:
aaa7513231
(浑沌与秩序)
2016-03-17 00:42:00
感谢K大!!! 我是使用windows环境的 所以是big5之前一直被utf-8给误导,以为都是使用他去编码的
继续阅读
[问题] matplotlib在数据下积分
sam122094
Re: [问题] 模组路径
Neisseria
[问题] 模组路径
lihsianglin
[问题] 排序多个 dict 的集合
zha0
Re: [问题] 有关于写档及取代问题
justfor0223
Re: [问题] 有关于写档及取代问题
Neisseria
[问题] 有关于写档及取代问题
justfor0223
Re: [问题] 比较并取代字串的文字
iyaicharles
[问题] 比较并取代字串的文字
eric2853
Re: [问题] 正规表达式 有好方法表达 非数字的字母吗
Neisseria
Links
booklink
Contact Us: admin [ a t ] ucptt.com