[问题] R爬虫抓html的问题 grimmq427532 PTT批踢踢实业坊

[问题] R爬虫抓html的问题

楼主: grimmq427532 (Legend) 2016-07-13 10:28:38

[问题类型]:
程式咨询
[软件熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
昨天开始研究使用R爬虫，从 celestialgod 大大的code开始起头
范例中大大抓的是BG版的文章内容，而我是想要抓八卦版的文章标题就好
但发现paste完网址、read_html抓code之后
再使用xml_find_all去抓title会有问题，其值为空 ( 显示{xml_nodeset(0)} )
往回追read_html，怀疑是不是html码抓漏了，并没有抓到title等项
因为开原网站的html来看，在body的部分似乎和抓到的有出入
不知道是不是这样？还是其他地方有问题？
因为对html不熟悉，如果理解有误请见谅
[程式范例]
为了研究先只抓15220这一页
paste(15220, '.html', sep='') %>%
paste('https://www.ptt.cc/bbs/Gossiping/index', ., sep='') %>%
xml2::read_html() %>%
xml2::xml_find_all("//div[@class='title']/a[@href]")
[环境叙述]:
R version : 3.3.1
[关键字]:
crawl
xml2
read_html

作者: clansoda (小笨) 2016-07-13 13:39:00

你没有通过18检验那一关版上搜寻批踢踢可以找到解决方法我输入的时候要，你这个问题我也碰过把cookie那边加上一点代码就可以过关了。

继续阅读

[分享] pipe operators in Rcelestialgod [问题] 想用quote指令写循环但碰到问题greatjus [问题] script在不同电脑上路径设定问题shihs Re: [问题] 处理资料效能询问celestialgod Re: [问题] 处理资料效能询问spiderway [问题] 使用 rvest 套件,爬不出表格内容lusa [问题] dynamic variablesdreler1 Re: [问题] 用for循环算zscoreclansoda Re: [问题] 处理资料效能询问memphis [问题] plot中文标题成方格(MAC)hakiooi