[闲聊] 想跟 Web Scraping 高手请益自动化技术~

楼主: adwx1973 (adwx1973)   2018-09-21 11:31:35
As title,
之前网络上看了些 Python 爬虫基本教学,
正试着从证交所爬虫建立 财报/股价 数据库。
但没多久就发现几个问题:
1. 每天爬取公司股价,经常性断线,
加上 Header; time.sleep(); 之类的都用上了,
想请益更有效率,稳定自动断点续传的技术。
2. 财报 PDF 想要自动化下载,
因为隐藏网址似乎是 jsoncallback 产生的,
并且网址当中一部分是随机数 or 现在时刻(时分秒),
这方面没办法突破。
也有试过 selenium + firefox webdriver,
不过也是卡在多个页面切换的操作无法 Loop。
想请益版上这方面的高手,这些部分怎么用 code 实现,
如果人在高雄有时间也可以约出来,我可以请你吃饭~
非常感谢!!
作者: f496328mm (为什么会流泪)   2018-09-21 12:58:00
crontab 排程自动化
作者: supisces (被~~~切~~~八~~~段)   2018-09-21 15:54:00
反爬虫?
作者: areyo (没有名字的怪物)   2018-09-23 23:28:00
推同在高雄
作者: totte (totte)   2018-09-25 04:56:00
1证交所股价下载还蛮稳的丫 我几乎没出过问题 你是下载json?2财报为何要下载pdf? 印象中有csv之类的原始资料可下 也史容易分析
楼主: adwx1973 (adwx1973)   2018-09-25 10:59:00
http://www.twse.com.tw/zh/page/trading/exchange/STOC是在个股日成交资讯那边抓,持续一段时间后会断公开资讯观测站有IFRS的财报XBRL,可是有些会计科目的细项不在那里面,必须要去原始的PDF档里面找

Links booklink

Contact Us: admin [ a t ] ucptt.com