Re: [问题] 爬虫抓下资料Decoding问题 ResolaQQ PTT批踢踢实业坊

Re: [问题] 爬虫抓下资料Decoding问题

楼主: ResolaQQ (ResolaQQ) 2015-12-13 16:18:17

>>> wb = u'\xe5\x8d\x97\xe4\xba\xac\xe5\xbe\xa9\xe8\x88\x88'
>>> b = wb.encode('latin-1')
>>> u = b.decode('utf-8')
>>> print(u)
南京复兴
※ 引述《atedps (苦哈哈)》之铭言：
: 大家好,键盘小弟最近因为研究需求需要北捷各站点间通勤时间的资料，
: 而台北市政府的Open Data好像也没有找到这方面的资料。因此
: 想说自己写了一只爬虫去抓这些资料，但抓下来的资料在中文
: 站名的部分总会变成乱码，我大概知道这是Encoding或Decoding
: 相关的问题，但是碍于自己这方面知识没有很充足，所以昨天
: Google了很久还是找不到答案，因此决定来问问版上的大大们。
: 我是使用最基本的方式用request抓下html档案后再用BeautifulSoup去分析，
: 但取出来的中文text会变成一个unicode的type的物件
: 如u'\xe5\x8d\x97\xe4\xba\xac\xe5\xbe\xa9\xe8\x88\x88'
: 但如果我手动把这个物件引号部分的资料复制出来当作一个字串再用utf8去decode的话就
: 可以顺利跑出中文字。如:
: tex = '\xe5\x8d\x97\xe4\xba\xac\xe5\xbe\xa9\xe8\x88\x88'
: msg = tex.decode('utf8')
: print msg
: 南京复兴
: 因此我想问的是，有没有什么方式是可以把我原本unicode物件里面引号的部分
: 取出来的，因为我也不可能每次都用手动去复制贴上ＱＱ。或者是有没有办法
: 让我一开始抓下来的中文字不要变成unicode物件，而直接是一个单纯字串。
: 我试过str()的方式，里面的文字会变成另外一个编码，造成decode出来跟原本的
: 文字会不一样
: 先感谢各位了 >_<

作者: atedps (苦哈哈) 2015-12-13 23:21:00

感谢，成功了！><可以请问为什么encode和decode是不同的编码方式吗？

作者: POSIX (tedium of chores) 2015-12-15 01:00:00

神奇招式

作者: s860134 (s860134) 2015-12-15 01:01:00

我推文回溯被吃掉了最厉害是你能解出他要的编码

作者: uranusjr (â†é€™äººæ˜¯è¶…ç´šç¬¨è›‹) 2015-12-15 13:58:00

latin-1 在实务上是万用解码, 只要是 8 bits 一组没有解不开的东西, 所以他不是用猜的, 而是技巧 :)

作者: s860134 (s860134) 2015-12-15 22:10:00

原来如此学到一课

作者: grtfor (哦啦啦) 2015-12-16 00:18:00

推一下，长知识了

作者: cobrasgo (人鱼线变成鲔鱼线，超帅) 2015-12-18 16:43:00

html参杂不只一种encode是怎么回事XDDD

继续阅读

[问题] 爬虫抓下资料Decoding问题atedps [问题] <>符号意义dream0830 Re: [教学] 90分钟初写网络爬虫pycontw [教学] 90分钟网络爬虫-活动前夜 pycontw [问题] python+paramiko ssh连线问题alexjay [问题] return的疑惑checkIO [问题] GMAIL的Labelkobenein Re: [问题] 常规表达式找副词banyhong [问题] 常规表达式找副词yuseke [问题] 安装模组问题ihaveaids