各位R前辈大家好! 我最近开始练习用R写爬虫(也是第一次写爬虫)
因为本身经验不足一直卡卡的~~
我想要爬以下这个网站
https://global.factiva.com/np/default.aspx?NAPC=P&inpt=Factiva
我想要爬里面的新闻资料,但我不清楚开怎么设XPATH
网站新闻图给各位做参考
http://imgur.com/L3Yg4Xe
所以我试着用/html/body
结果爬不出东西。
我再附上我自己写的一小段给大家点评,希望大家
能指出我有什么地方错误,谢谢。
library(XML)
>
res=GET(url="https://global.factiva.com/ha/default.aspx?ftx=died#./!?&_suid=1458132523982001469636911677985")
> xml=htmlParse(res,encoding="UTF-8")
> xpath="/html/body"
> text=xml[xpath]
> print(text)
[[1]]
<body class="">
<script type="text/javascript">
<![CDATA[
<!