[讨论] 秀泰影城爬虫

楼主: students (无敌风火轮)   2017-12-20 11:53:16
最近在练习写爬虫,决定把全台湾影城的电影时刻表当作爬虫的练习对象。
第一次爬了威秀影城,比较简单,搞定了。
第二次爬了环球影城,虽然似乎只能爬到当日的时刻表,但也没什么问题。
第三次挑战秀泰影城,发现他的时刻表资讯没有秀在前端HTML上?
https://www.showtimes.com.tw/events?corpId=8
仔细观察,他在加载网页时,会转一个“请稍候”然后才显示内容。
于是我使用Chrome的右键“检查”工具。
发现两个问题:
1.为什么在网页上点右键显示原始码,出现的是隐藏资讯的原始码,然后在“检查”工具
中的 Elements 字段会显示比较详细的原始码呢?
但偏偏,我使用BeautifulSoup抓上面那个连结时,他抓的是“显示网页上右键原始码版
本”的。
所以我怎么印都印不出来我想要的那个“电影时刻”。
2.更进一步,我在“检查”工具中的Network字段中观察,选择XHR,看看有没有相关的AP
I,果然被我找到了!
示意图 https://i.imgur.com/UYEZs3b.png
https://capi.showtimes.com.tw/1/events/listForCorporation/8?date=2017-12-20&li
mit=2000
但是在使用线上JSON工具检查后,发现资讯不是我要的。
示意图 https://i.imgur.com/tH12ulr.png
有大大找过秀泰影城的时刻资讯吗?
#他隐藏得太深,我找得好苦。
#觉得秀泰在躲我。
作者: tedwu2001   2017-12-20 12:14:00
events里面的startedAt就是时刻,只是要自己换成GMT+8底下programs对应影片,venues对应厅号就想办法mapping
作者: dododavid006 (朔雪)   2017-12-20 12:18:00
关于 1 原始码那个是直接抓 html 下来 但是 Element那页会包含 js 执行完的结果 所以会比较多东西应该说 Element 那页会反应目前网页的状态
楼主: students (无敌风火轮)   2017-12-20 12:26:00
原来如此,谢谢两位大大

Links booklink

Contact Us: admin [ a t ] ucptt.com