PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[讨论] 秀泰影城爬虫
楼主:
students
(无敌风火轮)
2017-12-20 11:53:16
最近在练习写爬虫,决定把全台湾影城的电影时刻表当作爬虫的练习对象。
第一次爬了威秀影城,比较简单,搞定了。
第二次爬了环球影城,虽然似乎只能爬到当日的时刻表,但也没什么问题。
第三次挑战秀泰影城,发现他的时刻表资讯没有秀在前端HTML上?
https://www.showtimes.com.tw/events?corpId=8
仔细观察,他在加载网页时,会转一个“请稍候”然后才显示内容。
于是我使用Chrome的右键“检查”工具。
发现两个问题:
1.为什么在网页上点右键显示原始码,出现的是隐藏资讯的原始码,然后在“检查”工具
中的 Elements 字段会显示比较详细的原始码呢?
但偏偏,我使用BeautifulSoup抓上面那个连结时,他抓的是“显示网页上右键原始码版
本”的。
所以我怎么印都印不出来我想要的那个“电影时刻”。
2.更进一步,我在“检查”工具中的Network字段中观察,选择XHR,看看有没有相关的AP
I,果然被我找到了!
示意图 https://i.imgur.com/UYEZs3b.png
https://capi.showtimes.com.tw/1/events/listForCorporation/8?date=2017-12-20&li
mit=2000
但是在使用线上JSON工具检查后,发现资讯不是我要的。
示意图 https://i.imgur.com/tH12ulr.png
有大大找过秀泰影城的时刻资讯吗?
#他隐藏得太深,我找得好苦。
#觉得秀泰在躲我。
作者: tedwu2001
2017-12-20 12:14:00
events里面的startedAt就是时刻,只是要自己换成GMT+8底下programs对应影片,venues对应厅号就想办法mapping
作者:
dododavid006
(朔雪)
2017-12-20 12:18:00
关于 1 原始码那个是直接抓 html 下来 但是 Element那页会包含 js 执行完的结果 所以会比较多东西应该说 Element 那页会反应目前网页的状态
楼主:
students
(无敌风火轮)
2017-12-20 12:26:00
原来如此,谢谢两位大大
继续阅读
[问题] Tk 按一个钮 换一张图的方法?
caesar0929
[问题] thinter视窗显示问题
iuz
[问题] python 递回上限
m87dd05
新手请益
tjw0314
[问题] 公开资讯观测站抓月营收问题
kakar0to
[问题] python 2.7可以但是3.6错误(solved)
znmkhxrw
[问题] 字串版阵列如何转成真正浮点阵列
st1009
[问题] 有人了解python连结tibero吗
naestnecniv
[问题] 期交所爬虫POST回传问题
walker088
[赠出] python for data analysis
ccfux
Links
booklink
Contact Us: admin [ a t ] ucptt.com