[问题] 591爬虫问题请教

楼主: sonic43 (森)   2017-05-30 14:22:05
[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
新手(没写过程式,R 是我的第一次)
[问题叙述]:
大家好,我想要爬591这个租屋物件实际的地理位置
https://rent.591.com.tw/rent-detail-5218521.html
也就是 "25.0529842,121.4891891" 这两个数字
其他像是价格、坪数等等都爬得出来,唯读这个爬不出来
请板上大家解答,谢谢
[程式范例]:
library(xml2)
url <- "https://rent.591.com.tw/rent-detail-5218521.html"
doc <- read_html(url)
xpath <- "//div[@class='propMapBarMap']/iframe"
address <- xml_attrs(xml_find_all(doc, xpath), "src")
#后来研究一下,貌似这个是用iframe(javascript?)生成出来的
#所以这样爬不出来,因此用了phantomjs这招,但还是不成功
#爬出来都没有内容
#phantomjs 参考 https://goo.gl/mf3kd4
#请板上大家帮忙解答了,谢谢
library(rvest)
lines <- readLines("hello.js")
lines[1] <- paste0("var url ='", url ,"';")
writeLines(lines, "hello.js")
system("phantomjs hello.js")
pg <- read_html("1.html")
cid <- pg %>% html_nodes("iframe") %>% html_attr("src")
[环境叙述]:
R version 3.3.1 (2016-06-21)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)
locale:
[1] LC_COLLATE=Chinese (Traditional)_Taiwan.950 LC_CTYPE=Chinese
(Traditional)_Taiwan.950
[3] LC_MONETARY=Chinese (Traditional)_Taiwan.950 LC_NUMERIC=C
[5] LC_TIME=Chinese (Traditional)_Taiwan.950
attached base packages:
[1] stats graphics grDevices utils datasets methods base
loaded via a namespace (and not attached):
[1] tools_3.3.1
作者: celestialgod (天)   2017-05-30 17:57:00
座标是直接跟google API串接的里面有一个是https://maps.googleapis.com/maps/api回传的json包括的:http://imgur.com/a/c4yOP
楼主: sonic43 (森)   2017-05-31 00:19:00
你一语道破,我知道怎么做了,谢谢你!

Links booklink

Contact Us: admin [ a t ] ucptt.com