PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
R_Language
[问题] 碰到有笔数限制的网站该怎么办
楼主:
m7413005
(小鱼)
2020-10-13 23:56:00
大家好,不好意思我是小菜鸟,最近想要从司法院法学资料检索系统抓取特定法条相关的
判决书内容,发现网站会限制显示的笔数,例如总数2万笔的资料,前台只会显示500笔,
用R爬下来的资料,也只有500笔,在网络上爬了一阵子的文,找不太到相关的讨论,想请
教各位先进,该怎么做才能抓到完整的资料呢?
先谢谢提点了!
作者:
locka
(locka)
2020-10-14 01:08:00
有关爬虫的问题基本上任何程式语言都是一样的,就是模拟人的操作方式,例如全部两万笔第一页只显示前五百笔,你会去点下一页,那么爬虫就是用程式码下参数去取得第二页之后的资料,这部分概念细节跟html技术比较相关。说了这么多,还是建议你发问时明确一点,例如附上网址跟程式码范例,不然众版友也是爱莫能助:)
作者:
andrew43
(讨厌有好心推文后删文者)
2020-10-14 16:52:00
司法院网站似乎是超过500笔则一律最多只给500笔,和分页造成的麻烦不太一样。我想这是无解的,只能先做更精确的查寻。
作者:
locka
(locka)
2020-10-14 17:30:00
只给500这点满奇怪的,意思是永远都搜寻不到500笔以后的资料吗?
作者:
jack155861
(萧)
2020-10-18 08:12:00
我爬过你必须做更精准查询而且司法站网站似乎很怕别人爬 三不五时改版...
继续阅读
[问题] 用dplyr做任两column相乘
rebe212296
[问题] 如何用bat档让rmarkdown输出word?
mrecct
[问题] 人口统计应该如何做?
jojo321
Re: [问题] 快速产生混淆矩阵
rebe212296
[问题] 快速产生混淆矩阵
totolink
[问题] for循环_矩阵相加
lin810221
[问题] Data frame 筛选
winter7531
[问题] R 向量 判断
lin810221
[问题] Rstudio 打不开
rebe212296
[问题] R 语言输出问题
lin810221
Links
booklink
Contact Us: admin [ a t ] ucptt.com