[问题] 有关网络爬虫"网址(url)"的问题

楼主: wheado (principal component QQ)   2016-08-08 15:05:04
问题:
有关于网页的"url"问题
程度:
新手
叙述:
我想对一个网站(某个租屋网)进行资料收集,
该网站将屋子讯息每20笔放在一个分页,
但是当我点入第二个分页时,
网址在后面只多了"#list",
当我点入第三个分页时,仍就是如此,找不到网页的网址。
想请问有没有类似的关键字可以让我搜寻相关的问题。
谢谢。
程式:
require("XML")
require("httr")
.get <- GET("https://rent.591.com.tw/")
.content <- content(.get,"text")
.htmlParse <- htmlParse(.content)
.web <- xpathSApply(.htmlParse,"//div[@class='left']/a[@href]",
xmlAttrs)
## The first 20 data information in the page-1.
.web[1,]
环境:
Windows R-3.2.5
作者: andrew43 (讨厌有好心推文后删文者)   2016-08-08 22:59:00
它是靠cookie来决定显示内容的。找 urlJumpIpByTxt 和urlJumpIp 的值,会决定哪个县市。至于第几页,是由jsPage()的javascript来达成的。总之,你眼睛看到的URL其实对你没有用处。了解其js的细节才可能了解怎么控制显示内容再控制R去读取。

Links booklink

Contact Us: admin [ a t ] ucptt.com