[问题] 网页编码问题 (unicode转字串) imYu1234 PTT批踢踢实业坊

[问题] 网页编码问题 (unicode转字串)

楼主: imYu1234 (:)) 2018-08-09 01:53:16

各位好, 小弟在爬网页时遇到unicode的字符却无法转成正常文字, 想了解如何处理
(我是用python3)
这边是从网页中取得的部分字串:
\u003Cspan>\u003Ci class=\"_1lbg img sp_Y1V9mWwfjKn_1_5x
sx_487a1b\">\u003C\/i>\u003C\/span>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003Cdiv
class=\"_5pbx userContent _3576\"
我自己透过线上unicode decoder解出来合理结果应该会变成:
<span><i class="_1lbg img sp_Y1V9mWwfjKn_1_5x
sx_487a1b"></i></span></div></div></div></div></div></div></div></div></div><div
class="_5pbx userContent _3576"
我看了网络上教得写法是用下列方式decode
text.encode(encoding='utf-8',errors='replace').decode('utf-8')
不过结果还是一样没解成功...
然后我又发现一个盲点, 就是同样的字串我存在txt档后读出来解码会解失败
f = open('test.txt','r', encoding='utf-8')
text = f.readline()
text = text.encode(encoding='utf-8',errors='replace').decode('utf-8')
但我直接把unicode的字串存进一个变量他在编译时自动就解码了(我是用pycharm)
如:
text = '最上面提供的unicode字串'
想请教一下到底该怎么写才能成功转出来呢?

作者: stucode 2018-08-09 19:56:00

text.encode('UTF-8').decode('unicode-escape')

楼主: imYu1234 (:)) 2018-08-10 10:43:00

可以了! 感谢楼上

继续阅读

[问题] 网页爬虫问题senso [问题] import失败honoYang [问题] Django admin widget问题kalapon [问题] 新手Python 一些问题rxs80087 [问题] ImportErrorcallmejohn [问题] python 学习的方向ching4562 [问题] spyder没有out跑出来@@?silverair [问题] 直方图重叠不叠加pig98520 [问题] 资料合并问题unknown [问题] Google登入aa12twtwaa