[讨论] 秀泰影城爬虫 students PTT批踢踢实业坊

[讨论] 秀泰影城爬虫

楼主: students (无敌风火轮) 2017-12-20 11:53:16

最近在练习写爬虫，决定把全台湾影城的电影时刻表当作爬虫的练习对象。
第一次爬了威秀影城，比较简单，搞定了。
第二次爬了环球影城，虽然似乎只能爬到当日的时刻表，但也没什么问题。
第三次挑战秀泰影城，发现他的时刻表资讯没有秀在前端HTML上？
https://www.showtimes.com.tw/events?corpId=8
仔细观察，他在加载网页时，会转一个“请稍候”然后才显示内容。
于是我使用Chrome的右键“检查”工具。
发现两个问题：
1.为什么在网页上点右键显示原始码，出现的是隐藏资讯的原始码，然后在“检查”工具
中的 Elements 字段会显示比较详细的原始码呢？
但偏偏，我使用BeautifulSoup抓上面那个连结时，他抓的是“显示网页上右键原始码版
本”的。
所以我怎么印都印不出来我想要的那个“电影时刻”。
2.更进一步，我在“检查”工具中的Network字段中观察，选择XHR，看看有没有相关的AP
I，果然被我找到了！
示意图 https://i.imgur.com/UYEZs3b.png
https://capi.showtimes.com.tw/1/events/listForCorporation/8?date=2017-12-20&li
mit=2000
但是在使用线上JSON工具检查后，发现资讯不是我要的。
示意图 https://i.imgur.com/tH12ulr.png
有大大找过秀泰影城的时刻资讯吗？
#他隐藏得太深，我找得好苦。
#觉得秀泰在躲我。

作者: tedwu2001 2017-12-20 12:14:00

events里面的startedAt就是时刻，只是要自己换成GMT+8底下programs对应影片,venues对应厅号就想办法mapping

作者: dododavid006 (朔雪) 2017-12-20 12:18:00

关于 1 原始码那个是直接抓 html 下来但是 Element那页会包含 js 执行完的结果所以会比较多东西应该说 Element 那页会反应目前网页的状态

楼主: students (无敌风火轮) 2017-12-20 12:26:00

原来如此，谢谢两位大大

继续阅读

[问题] Tk 按一个钮换一张图的方法?caesar0929 [问题] thinter视窗显示问题iuz [问题] python 递回上限m87dd05 新手请益tjw0314 [问题] 公开资讯观测站抓月营收问题kakar0to [问题] python 2.7可以但是3.6错误(solved)znmkhxrw [问题] 字串版阵列如何转成真正浮点阵列st1009 [问题] 有人了解python连结tibero吗naestnecniv [问题] 期交所爬虫POST回传问题walker088 [赠出] python for data analysisccfux