[问题] 莱尔富门市爬虫 踢到铁板

楼主: somehog (低进)   2020-05-09 17:58:24
各位大大好,遇到一个铁板,
可能跟程式语言比较没关系,
专案需要定期抓莱尔富的全部所有门市,
找到其官网门市查询所在位置,
https://www.hilife.com.tw/storeInquiry_street.aspx
大约看一下网页原码,
应该是ASP.Net & WebForm无误,
GET跟POST都是这一支,
所以逻辑思路如下:
方法1:
先用GET不带参数发出Request,
取得回传网页后,剖析取出
__VIEWSTATEGENERATOR
__EVENTVALIDATION
__VIEWSTATE
__EVENTTARGET
__EVENTARGUMENT
__LASTFOCUS
等等数值,
然后塞入POST内,
再填入自订的县市CITY与乡区AREA后,
发出Request,
台北市全区没问题,
都可以取得门市资料,
但诡异的是:
其他县市与乡区却直接拒绝连结.....!!??
试用方法2
先用GET取得__VIEWSTATE值之后,
再发出台北市中山区的POST,
得到正常回传结果后再取一次全部__VIEWSTATE值,
然后再塞入,填上新北市林口区再发出POST,
.....一样失败,拒绝连结!
试用方法3
把GET取得__VIEWSTATE值,
手工写入静态HTML网页内的FORM input内,
指定云林县虎尾镇
然后按submit post出去,
.........成功正常回传
感觉有点崩溃,没头绪....
猜想因为台北市是default页,
所以没有设检查,
不了解ASP.Net的后端作法,
有大大可以提供解法建议吗?
感恩~
作者: mirror0227 (镜子)   2020-05-09 18:19:00
这时候应该要看你打成功的跟打失败的差别吧
作者: aidansky0989 (alta)   2020-05-09 18:21:00
我昨天爬ubereats是用cookie,里面有QLoc之类的cookies,ˊ真的没想法从网址下手也可不过爬虫本来就要花时间摸网页结构,直接开selenium万解也可
作者: goldflower (金色小黄花)   2020-05-09 20:16:00
想研究倒店与位置的关联性吗
作者: s860134 (s860134)   2020-05-09 21:40:00
有写过网页了解前后端架构对爬虫也会有帮助
作者: TakiDog (多奇狗)   2020-05-09 23:34:00
我很讨厌这种架构 不用Selenium也能解我是把这种网页当用后端渲染前端XDDD你要注意到 要跳县市 __EVENTTARGET 是要是 CITY每一个request 都要接着上个request中的hidden form只要有一个环节错 就炸掉了我写一个看看
楼主: somehog (低进)   2020-05-09 23:51:00
期待T大抓到真凶
作者: TakiDog (多奇狗)   2020-05-10 00:08:00
回你了在板上,之前做过类似的,而且还是一个请假系统...每请一节课要1个封包XD
作者: vi000246 (Vi)   2020-05-10 10:41:00
我先不看回复猜一下 每次选择县市dropdown都会重新刷新网页,所以viewState等参数,也要重新取得需要分析各县市 对于html隐藏参数的影响我选择县市dropdown 不会有新的cookie 应该跟cookie无关看起来__VIEWSTATE跟__EVENTVALIDATION都会随着更换县市而跟着更换,所以要研究一下如何取得新的隐藏字段值
作者: TakiDog (多奇狗)   2020-05-10 12:22:00
hidden我没看莱尔富这的,之前做过的是XML然后是没办法靠自己生产出来的,如果能自己生产出来就能跳页爬了

Links booklink

Contact Us: admin [ a t ] ucptt.com