[问题] 如何爬虫会每日更新网站?

楼主: starlin2 (重新开始生活)   2018-01-08 14:18:01
不好意思爬虫初学,
目前想要爬法拍屋查询,
http://aomp.judicial.gov.tw/abbs/wkw/WHD2A00.jsp
我目前可以找到他查询出来TABLE的网址,并用GET去取得资料秀出来~
目前程式查询的是宜兰县头城镇的法拍屋
import pandas
dfs = pandas.read_html("http://aomp.judicial.gov.tw/abbs/wkw/WHD2A03.jsp?
CB9A40A9FDA4E10666512BC4C2A180D2=C13752ECCB9567ECF0193DDCAFF6EF5A&hsimun=
%A9y%C4%F5%BF%A4&ctmd=%C0Y%AB%B0%C2%ED&saledate1=&saledate2=&crmyy=&crmid=
&crmno=&dpt=&minprice1=&minprice2=&saleno=&area1=&area2=&registeno=&checkyn=
all&emptyyn=all&rrange=%A4%A3%A4%C0&comm_yn=&owner1=&order=odcrm&courtX=
ILD&proptypeX=C52&saletypeX=1&query_typeX=db")
currency = dfs[0]
currency = currency.ix[5:,4:6]
currency.columns = [u'',u'',u'']
print (currency)
执行后可以成功得到头城镇的拍卖资料....
5 房屋地址/楼层面积 总拍卖底价(元)
6 宜兰县头城镇忠孝新村68号 4 坪 x 4分之1 建物拍卖底价:....
7 宜兰县头城镇忠孝新村68号 16 坪 x 4分之1 建物拍卖底价:....
8 宜兰县头城镇协天路653号4楼 22 坪 x 全部 建物拍卖底价: ....
9 宜兰县头城镇头滨路2段146号 89 坪 x 100000分之16667 建物拍卖底价
10 宜兰县头城镇福成路210号 44 坪 x 100000分之12500 建物拍卖底价:
11 NaN NaN NaN
不过他的这个连结每天按下查询都会不一样,这样的话我要怎么去爬他的资料呢?
作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS)   2018-01-08 14:19:00
爬出来的放data到数据库 比对update or create
作者: coeric ( )   2018-01-08 14:31:00
看到这篇...突然想到我该做的事 还没完成.....目前一直都是刷掉抓最新的 历史的还没去爬...提醒我了
作者: blc (Anemos)   2018-01-08 18:54:00
从不会变的网址开始抓
作者: coeric ( )   2018-01-09 07:55:00
有API可以用阿...别傻傻的去爬
作者: yimean (温柔杀手)   2018-01-09 10:03:00
请问要如何取得API?
作者: coeric ( )   2018-01-09 13:43:00
opendata
作者: vi000246 (Vi)   2018-01-10 23:17:00
用字号当key 重复的不抓

Links booklink

Contact Us: admin [ a t ] ucptt.com