[问题] 爬虫相关问题

楼主: GetRobin (Rrr)   2016-08-04 22:27:49
[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
目前想抓取求职天眼通各公司的讨论串,
不过碰到问题是进入个别讨论串后,
(例如
https://disqus.com/home/discussion/clv-bakc-end/_1111_811556/
),
使用rvest或RSelenium都抓不到讨论内容,
不知该怎么处理。
[程式范例]:
library(RSelenium)
remDr <- remoteDriver(remoteServerAddr = "localhost"
, port = 4444
, browserName ="firefox"
)
remDr$open()
remDr$navigate("https://disqus.com/home/discussion/clv-bakc-end/_1111_811556/"
)
page_source<-remDr$getPageSource()
page_source ##page_source没讨论内容,去抓html的nodes也就抓不到了
[关键字]:
爬虫
作者: celestialgod (天)   2016-08-04 22:42:00
求职天眼通应该google 外挂的吧 不在原本的网页上
作者: andrew43 (讨厌有好心推文后删文者)   2016-08-05 02:10:00
你要爬这个 iframe#dsq-app2;html里可以找到它的src。这种动态地读入iframe的情况,还是直接到该iframe的原始网页里爬资料会比较稳,只是经验谈。

Links booklink

Contact Us: admin [ a t ] ucptt.com