[问题] 碰到有笔数限制的网站该怎么办

楼主: m7413005 (小鱼)   2020-10-13 23:56:00
大家好,不好意思我是小菜鸟,最近想要从司法院法学资料检索系统抓取特定法条相关的
判决书内容,发现网站会限制显示的笔数,例如总数2万笔的资料,前台只会显示500笔,
用R爬下来的资料,也只有500笔,在网络上爬了一阵子的文,找不太到相关的讨论,想请
教各位先进,该怎么做才能抓到完整的资料呢?
先谢谢提点了!
作者: locka (locka)   2020-10-14 01:08:00
有关爬虫的问题基本上任何程式语言都是一样的,就是模拟人的操作方式,例如全部两万笔第一页只显示前五百笔,你会去点下一页,那么爬虫就是用程式码下参数去取得第二页之后的资料,这部分概念细节跟html技术比较相关。说了这么多,还是建议你发问时明确一点,例如附上网址跟程式码范例,不然众版友也是爱莫能助:)
作者: andrew43 (讨厌有好心推文后删文者)   2020-10-14 16:52:00
司法院网站似乎是超过500笔则一律最多只给500笔,和分页造成的麻烦不太一样。我想这是无解的,只能先做更精确的查寻。
作者: locka (locka)   2020-10-14 17:30:00
只给500这点满奇怪的,意思是永远都搜寻不到500笔以后的资料吗?
作者: jack155861 (萧)   2020-10-18 08:12:00
我爬过你必须做更精准查询而且司法站网站似乎很怕别人爬 三不五时改版...

Links booklink

Contact Us: admin [ a t ] ucptt.com