[问题] 新手R爬虫问题 xyz6206a PTT批踢踢实业坊

[问题] 新手R爬虫问题

楼主: xyz6206a (xyz6206a) 2016-03-16 21:15:11

各位R前辈大家好! 我最近开始练习用R写爬虫(也是第一次写爬虫)
因为本身经验不足一直卡卡的~~
我想要爬以下这个网站
https://global.factiva.com/np/default.aspx?NAPC=P&inpt=Factiva
我想要爬里面的新闻资料，但我不清楚开怎么设XPATH
网站新闻图给各位做参考

所以我试着用/html/body
结果爬不出东西。
我再附上我自己写的一小段给大家点评，希望大家
能指出我有什么地方错误，谢谢。
library(XML)
>
res=GET(url="https://global.factiva.com/ha/default.aspx?ftx=died#./!?&_suid=1458132523982001469636911677985")
> xml=htmlParse(res,encoding="UTF-8")
> xpath="/html/body"
> text=xml[xpath]
> print(text)
[[1]]
<body class="">
<script type="text/javascript">
<![CDATA[
<!

作者: JackBaska (Baska) 2016-03-16 23:08:00

用chrome吗？infoLite跟selectorGadget都可以拿xpath

作者: psinqoo (é›¶åº¦ç©ºé–“) 2016-03-17 08:40:00

rvest 包

楼主: xyz6206a (xyz6206a) 2016-03-17 22:50:00

目前还遇到一个困难那个数据库竟然要登入QQ

作者: JackBaska (Baska) 2016-03-18 00:16:00

google: session 然后开始查cookie资讯如果要抓的资料不介意速度的话可以改用python的模拟selenium, R有没有类似套件我还不确定

r有rSeleniumRSelenium

作者: sulaxd (SulaXD) 2016-03-19 13:18:00

透过RSelenium可以解决登入问题

继续阅读

Re: [问题] dataframe转换list col name问题celestialgod [问题] dataframe转换list col name问题clansoda [问题] R原文书购买管道dodo4218 Re: [问题] 关于使用者自行输入值的问题celestialgod Re: [问题] 转换资料成table格式celestialgod [问题] 转换资料成table格式clansoda [问题] shiny-add notes with mouse eventnaturalsmen [问题] DT套件datatable显示中文问题tytony [情报] Visual Studio也有R了喔~damody [问题] findintervalyaowei2010