[问题] 有关网络爬虫"网址(url)"的问题 wheado PTT批踢踢实业坊

[问题] 有关网络爬虫"网址(url)"的问题

楼主: wheado (principal component QQ) 2016-08-08 15:05:04

问题：
有关于网页的"url"问题
程度：
新手
叙述：
我想对一个网站(某个租屋网)进行资料收集，
该网站将屋子讯息每20笔放在一个分页，
但是当我点入第二个分页时，
网址在后面只多了"#list"，
当我点入第三个分页时，仍就是如此，找不到网页的网址。
想请问有没有类似的关键字可以让我搜寻相关的问题。
谢谢。
程式：
require("XML")
require("httr")
.get <- GET("https://rent.591.com.tw/")
.content <- content(.get,"text")
.htmlParse <- htmlParse(.content)
.web <- xpathSApply(.htmlParse,"//div[@class='left']/a[@href]",
xmlAttrs)
## The first 20 data information in the page-1.
.web[1,]
环境：
Windows R-3.2.5

作者: andrew43 (讨厌有好心推文后删文者) 2016-08-08 22:59:00

它是靠cookie来决定显示内容的。找 urlJumpIpByTxt 和urlJumpIp 的值，会决定哪个县市。至于第几页，是由jsPage()的javascript来达成的。总之，你眼睛看到的URL其实对你没有用处。了解其js的细节才可能了解怎么控制显示内容再控制R去读取。

继续阅读

[问题] 如何用R读取本地的mdb档?Tampa [问题] bigmemory 用ssd硬盘会变快吗? f496328mm [问题] 爬虫相关问题GetRobin Re: [问题] 自动跳过填入验证码clansoda [问题] 循环中相同名称都覆蓋了还是内存不足greatjus [问题] 关于pchisqsum 做 power simulationx9060000456 [问题] 训练与测试资料询问banana08 [问题] 自动跳过填入验证码clansoda [问题] 看不是很懂的warning讯息swilly0906 [问题] logit回归请教banana08