[问题] 用R抓取网络资料

楼主: li70534 (change )   2017-05-11 21:44:39
我想要抓取http://www.twse.com.tw/ch/trading/fund/T86/T86.php中的表格
经检视码确认编码为UTF-8,但其程式码跑出来却是乱码
[软件熟悉度]:
新手(使用R3个月,有将Wush Wu的翻转教室上过一次,知道概念)
[程式范例]:
page.html<-read.html("http://www.twse.com.tw/ch/trading/fund/T86/T86.php",encoding
= "UTF-8")
version.block<-html_node(page.html,"table border='1' align='center'
style='width:1400px;' id='tbl-sortable-header")
html_text(version.block)
【输出成果】:
> html_text(version.block)
[1] "\n\t\n \xe5阋\xe7哐霅桧驼鈭斗\x98猟\x89\u0080\n\n \n
ENGLISH\xc2í\xa0 \n \xe6鞒\xe6珻隤鏛í\xa0\n Twitter\n
Facebook\n Plurk\n \n\n \n \n 蝺栶\xb8簧瓱\xe6鹁\n
蝬脩\xab⒠琔\xe5\x9c\x96\n 蝬脩\xab⒡\xb1弡阔\n 霅桧驼蝺函
Ⅳ\n 霅桧驼閰霶\xbd\x99\n \n \n \xe7灜\xe9\x97\x9c菝
\x8b⒠像\xe5阋\n \xe5饬\xe9\x96鹑\xb3殴\xa8篑\xa7\u0080皜祉\xab\x99\n
\xe5胨\xe6珻掸弴\xb3癴ē撠\x8e\n 蝬脰楝鞈殴\xa8箫\x95疟
\xba\x97\n \xe6\x8a厕\xb3乐荦\xe7缷霅咹雯\n 敶梢耯\xe5嘘\xe6軽蝬
\xb2\n 蝚砌\xb8栉硅\xe8\x88桧ē銝剖\xbf阵像\xe5阋\n 鞎∪\x8b⒡
\xaf鲬\xbc侠暺鞇\u0080\x9a\n \n\t\t\t\n \n\n\t\n"
作者: celestialgod (天)   2017-05-11 21:55:00
有quantmod可以直接拿股票资料,建议不要自己抓
楼主: li70534 (change )   2017-05-11 22:15:00
我主要是想确认如何抓取资料,这个网页只是我随便找的而已
作者: celestialgod (天)   2017-05-11 22:21:00
UTF8在windows上都要经过转换到big5才能正常显示#1NL2H4ME (R_Language)
楼主: li70534 (change )   2017-05-11 22:27:00
C大,所以我需再将编码转换成BIG5即可吗?
作者: celestialgod (天)   2017-05-11 22:39:00
作者: bluecadence (Maxwell's demon)   2017-05-12 01:07:00
其实证交所资料不只是股价而已,像这连结其实是三大法人买卖超。然后其实用quantmod抓yahoo台股资料有时候资料不是很干净(例如放假日也跑出资料字段,或偶尔成交量很奇怪),有些股票甚至不在yahoo数据库里面
楼主: li70534 (change )   2017-05-12 20:30:00
我就是想说yahoo finance 的资料可能不干净,所以想说试试这种方法,只是编码极度麻烦
作者: bluecadence (Maxwell's demon)   2017-05-19 12:42:00
看来yahoo finance已经在刻意挡自动下载历史股价资料这些免费的资料源(包括google finance)什么时候被会被中止取消也很难讲。要免费的台股股价历史资料,也许最好的方法只剩下从证交所和柜买中心下载公开资料建立自己的数据库
作者: Rossi0927 (Rossi0927)   2017-05-19 17:25:00
可以用 get 抓 twse 的 json 资料比readhtm 好

Links booklink

Contact Us: admin [ a t ] ucptt.com