[问题] 爬虫相关问题 GetRobin PTT批踢踢实业坊

[问题] 爬虫相关问题

楼主: GetRobin (Rrr) 2016-08-04 22:27:49

[问题类型]:
程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
[软件熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
目前想抓取求职天眼通各公司的讨论串，
不过碰到问题是进入个别讨论串后，
(例如
https://disqus.com/home/discussion/clv-bakc-end/_1111_811556/
)，
使用rvest或RSelenium都抓不到讨论内容，
不知该怎么处理。
[程式范例]:
library(RSelenium)
remDr <- remoteDriver(remoteServerAddr = "localhost"
, port = 4444
, browserName ="firefox"
)
remDr$open()
remDr$navigate("https://disqus.com/home/discussion/clv-bakc-end/_1111_811556/"
)
page_source<-remDr$getPageSource()
page_source ##page_source没讨论内容，去抓html的nodes也就抓不到了
[关键字]:
爬虫

作者: celestialgod (å¤©) 2016-08-04 22:42:00

求职天眼通应该google 外挂的吧不在原本的网页上

作者: andrew43 (讨厌有好心推文后删文者) 2016-08-05 02:10:00

你要爬这个 iframe#dsq-app2；html里可以找到它的src。这种动态地读入iframe的情况，还是直接到该iframe的原始网页里爬资料会比较稳，只是经验谈。

继续阅读

Re: [问题] 自动跳过填入验证码clansoda [问题] 循环中相同名称都覆蓋了还是内存不足greatjus [问题] 关于pchisqsum 做 power simulationx9060000456 [问题] 训练与测试资料询问banana08 [问题] 自动跳过填入验证码clansoda [问题] 看不是很懂的warning讯息swilly0906 [问题] logit回归请教banana08 [问题]一个除以一个clansoda [问题] 如何讲年月转成只有月份呈现??swilly0906 [问题] 指令错误a9995559