[问题] 请问撷取原始码中文问题

楼主: Czero (悠闲)   2015-07-03 23:25:54
撷取的页面:http://isin.twse.com.tw/isin/C_public.jsp?strMode=2
我是用python3 , sublime执行
但印出的中文会显示如\xa1@\xa5x\xaad这样字眼
使用python console >>> b'\xa1@\xa5x\xaad'.decode('utf-8')解不出来
请教各位这该如何解,编码实在很恼人...
作者: yan12125 (姥姥)   2015-07-03 23:48:00
这个网页是Big5
作者: Thisisnotptt (这不是PTT)   2015-07-04 00:10:00
我很懒,我都用django的smart_string来处理这种事,编码什么的几乎都能搞定,超方便的啦
楼主: Czero (悠闲)   2015-07-04 00:22:00
@@原来是big5..哈!因为初学所以先玩一下再去用Django
作者: uranusjr (←這人是超級笨蛋)   2015-07-04 00:31:00
请爱用 chardet
楼主: Czero (悠闲)   2015-07-04 00:35:00
感谢各位!另外请问...在console打>>>b'\xa5x\xaad'.decode('big5')但在程式打print(b'\xa5x\xaad'.decode('big5'))似乎不行?
作者: uranusjr (←這人是超級笨蛋)   2015-07-04 01:38:00
Windows 请再加一段 .encode('cp950')
楼主: Czero (悠闲)   2015-07-04 01:49:00
我是希望sublime可以也印出中文'台泥'的字眼
作者: uranusjr (←這人是超級笨蛋)   2015-07-04 16:27:00
不要用 Sublime Text console 谢谢

Links booklink

Contact Us: admin [ a t ] ucptt.com