Re: [问题] 请问想查询高铁时刻表的问题

楼主: chaotic0307 (坚持、耐心、努力学习)   2019-03-28 12:51:09
※ 引述《chaotic0307 (坚持、耐心、努力学习)》之铭言:
: 自己的文章自己回~
: 不知道去年高铁网站是不是有改过,一些书上的方法好像都失效了
: 透过chrome的开发者工具,可以在XHR底下找到回传的data
: 自己做功课的了解是这应该是动态网页,资料格式应该是json(?
: 试过一些方法还是抓不到(跟cookies or session有关吗?
: 在Response Headers 当中显示 Cache-Control: private, max-age=5
: 没有Allow,是不是代表无法抓取?
: 但在网页按右键->检查->copy element贴到记事本是有看到的
: 跪求高手解惑~
感谢推文的大大们,有API真的是方便许多
最近比较熟悉爬虫后,终于解决先前的问题,顺利得到回应的json资料
先前主要应该是网址错误跟没用session
url = 'http://www.thsrc.com.tw/tw/TimeTable/SearchResult'
改成
url = 'http://www.thsrc.com.tw/tw/TimeTable/Search'
header跟form_data部分就是看开发者工具里面的内容全贴进去
以下几行就搞定
rs = requests.session()
res = rs.post(url, headers=headers, data=form_data)
jsdata = res.json()
这样就可以顺利取得json资料
在爬虫的路上又迈进一小步了XD 感谢大家!
作者: alen84204 (Dana)   2019-03-28 16:06:00
推后续更新
作者: jasonfghx (工人)   2019-03-28 18:26:00
WOW
作者: nini200 (200妮妮)   2019-03-29 18:38:00
作者: ofspring (青春无敌)   2019-03-29 23:38:00
强!自己也卡在这个问题,不知大大有无github可以提供程式码让小弟学习
楼主: chaotic0307 (坚持、耐心、努力学习)   2019-04-01 14:21:00
https://github.com/DanielChiang/Highway第一次用github,不知道对不对XD 有问题再说

Links booklink

Contact Us: admin [ a t ] ucptt.com