[问题] R爬虫抓html的问题

楼主: grimmq427532 (Legend)   2016-07-13 10:28:38
[问题类型]:
程式咨询
[软件熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
昨天开始研究使用R爬虫,从 celestialgod 大大的code开始起头
范例中大大抓的是BG版的文章内容,而我是想要抓八卦版的文章标题就好
但发现paste完网址、read_html抓code之后
再使用xml_find_all去抓title会有问题,其值为空 ( 显示{xml_nodeset(0)} )
往回追read_html,怀疑是不是html码抓漏了,并没有抓到title等项
因为开原网站的html来看,在body的部分似乎和抓到的有出入
不知道是不是这样?还是其他地方有问题?
因为对html不熟悉,如果理解有误请见谅
[程式范例]
为了研究先只抓15220这一页
paste(15220, '.html', sep='') %>%
paste('https://www.ptt.cc/bbs/Gossiping/index', ., sep='') %>%
xml2::read_html() %>%
xml2::xml_find_all("//div[@class='title']/a[@href]")
[环境叙述]:
R version : 3.3.1
[关键字]:
crawl
xml2
read_html
作者: clansoda (小笨)   2016-07-13 13:39:00
你没有通过18检验那一关版上搜寻批踢踢可以找到解决方法我输入的时候要,你这个问题我也碰过把cookie那边加上一点代码就可以过关了。

Links booklink

Contact Us: admin [ a t ] ucptt.com