[请益] curl抓回来的乱码问题

楼主: crossdunk (推嘘自如)   2014-11-17 15:57:04
是这样的
小弟最近在学curl,现在有个问题是
抓回来的东西出现确是乱码
我试过用别的编码方式,却都还是乱码
大概是像下面这样
<a href="http://www.8591.com.tw/user-login.html">å·2 è2 ·åˆ°ç?</a>
<a href="http://www.8591.com.tw/user-login.html">å·2 è3 £出ç</a>
<a href="http://www.8591.com.tw/user-login.html">é2 è3 £å鄊
我是以8591网站来做测试的
请问要如何知道他的编码是什么来做转换呢?
我看他的表头是用UTF-8
我显示的方式也用UTF-8,却还是乱码
请各位先进给小弟一点指导
谢谢!
作者: LPH66 (-6.2598534e+18f)   2014-11-17 21:06:00
你的程式是怎么写的? 这看起来像是把 UTF-8 解做英文编码
作者: alog (A肉哥)   2014-11-18 02:40:00
这latin1吧你用python or ruby2抓抓看应该会是utf8
作者: shadowjohn (转角遇到爱)   2014-11-18 11:01:00
你在windows上看,试看看把UTF-8转BIG5就可以正常看
作者: InDer5566 (在这5566)   2014-11-20 20:18:00
你的纯文字档 不是用ansi建的吧?看错 你的data8591.html 开头有宣告是utf-8吗?总觉得这个问题 是在抓下来时发生的....我都是写一个专门display的html 好像没发生过这种事情我用你的码测了一下抓8591首页 没任何问题哎@@是不是你browser的问题?@@我用你的跟楼下的码 跑起来很正常哎 @@""还是说你是用国外的server... 有时候本机测试正常但是你直接用国外主机去爬... 他好像 有时候会有问题可能跟他某些设定有关....@@"

Links booklink

Contact Us: admin [ a t ] ucptt.com