[闲聊] 想跟 Web Scraping 高手请益自动化技术~ adwx1973 PTT批踢踢实业坊

[闲聊] 想跟 Web Scraping 高手请益自动化技术~

楼主: adwx1973 (adwx1973) 2018-09-21 11:31:35

As title,
之前网络上看了些 Python 爬虫基本教学，
正试着从证交所爬虫建立财报/股价数据库。
但没多久就发现几个问题：
1. 每天爬取公司股价，经常性断线，
加上 Header; time.sleep(); 之类的都用上了，
想请益更有效率，稳定自动断点续传的技术。
2. 财报 PDF 想要自动化下载，
因为隐藏网址似乎是 jsoncallback 产生的，
并且网址当中一部分是随机数 or 现在时刻(时分秒)，
这方面没办法突破。
也有试过 selenium + firefox webdriver，
不过也是卡在多个页面切换的操作无法 Loop。
想请益版上这方面的高手，这些部分怎么用 code 实现，
如果人在高雄有时间也可以约出来，我可以请你吃饭~
非常感谢!!

作者: f496328mm (为什么会流泪) 2018-09-21 12:58:00

crontab 排程自动化

作者: supisces (被~~~切~~~八~~~段) 2018-09-21 15:54:00

反爬虫？

作者: areyo (没有名字的怪物) 2018-09-23 23:28:00

推同在高雄

作者: totte (totte) 2018-09-25 04:56:00

1证交所股价下载还蛮稳的丫我几乎没出过问题你是下载json?2财报为何要下载pdf? 印象中有csv之类的原始资料可下也史容易分析

楼主: adwx1973 (adwx1973) 2018-09-25 10:59:00

http://www.twse.com.tw/zh/page/trading/exchange/STOC是在个股日成交资讯那边抓，持续一段时间后会断公开资讯观测站有IFRS的财报XBRL，可是有些会计科目的细项不在那里面，必须要去原始的PDF档里面找

继续阅读

Re: [问题] 爬虫自动更新程式Hsins [问题] 爬虫自动更新程式WENroger [问题] 枢纽分析+排序buyoption [问题] 在MAC 上用pycharm执行Djangoabcd012345 [问题] 无法成功取字串前4码neil24 [问题] 请问http digest 认证wisdoms0817 [问题] youtube记录观看人数tinasfishs [范例] tensorflow问题在那?g318 [闲聊] 台北赠送python教学书alfven [问题] python tensorflow spyder启动问题dinosaur8484