[问题] 网页编码问题 (unicode转字串)

楼主: imYu1234 (:))   2018-08-09 01:53:16
各位好, 小弟在爬网页时遇到unicode的字符却无法转成正常文字, 想了解如何处理
(我是用python3)
这边是从网页中取得的部分字串:
\u003Cspan>\u003Ci class=\"_1lbg img sp_Y1V9mWwfjKn_1_5x
sx_487a1b\">\u003C\/i>\u003C\/span>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003Cdiv
class=\"_5pbx userContent _3576\"
我自己透过线上unicode decoder解出来合理结果应该会变成:
<span><i class="_1lbg img sp_Y1V9mWwfjKn_1_5x
sx_487a1b"></i></span></div></div></div></div></div></div></div></div></div><div
class="_5pbx userContent _3576"
我看了网络上教得写法是用下列方式decode
text.encode(encoding='utf-8',errors='replace').decode('utf-8')
不过结果还是一样没解成功...
然后我又发现一个盲点, 就是同样的字串我存在txt档后读出来解码会解失败
f = open('test.txt','r', encoding='utf-8')
text = f.readline()
text = text.encode(encoding='utf-8',errors='replace').decode('utf-8')
但我直接把unicode的字串存进一个变量他在编译时自动就解码了(我是用pycharm)
如:
text = '最上面提供的unicode字串'
想请教一下到底该怎么写才能成功转出来呢?
作者: stucode   2018-08-09 19:56:00
text.encode('UTF-8').decode('unicode-escape')
楼主: imYu1234 (:))   2018-08-10 10:43:00
可以了! 感谢楼上

Links booklink

Contact Us: admin [ a t ] ucptt.com