PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[闲聊] 想跟 Web Scraping 高手请益自动化技术~
楼主:
adwx1973
(adwx1973)
2018-09-21 11:31:35
As title,
之前网络上看了些 Python 爬虫基本教学,
正试着从证交所爬虫建立 财报/股价 数据库。
但没多久就发现几个问题:
1. 每天爬取公司股价,经常性断线,
加上 Header; time.sleep(); 之类的都用上了,
想请益更有效率,稳定自动断点续传的技术。
2. 财报 PDF 想要自动化下载,
因为隐藏网址似乎是 jsoncallback 产生的,
并且网址当中一部分是随机数 or 现在时刻(时分秒),
这方面没办法突破。
也有试过 selenium + firefox webdriver,
不过也是卡在多个页面切换的操作无法 Loop。
想请益版上这方面的高手,这些部分怎么用 code 实现,
如果人在高雄有时间也可以约出来,我可以请你吃饭~
非常感谢!!
作者:
f496328mm
(为什么会流泪)
2018-09-21 12:58:00
crontab 排程自动化
作者:
supisces
(被~~~切~~~八~~~段)
2018-09-21 15:54:00
反爬虫?
作者:
areyo
(没有名字的怪物)
2018-09-23 23:28:00
推同在高雄
作者:
totte
(totte)
2018-09-25 04:56:00
1证交所股价下载还蛮稳的丫 我几乎没出过问题 你是下载json?2财报为何要下载pdf? 印象中有csv之类的原始资料可下 也史容易分析
楼主:
adwx1973
(adwx1973)
2018-09-25 10:59:00
http://www.twse.com.tw/zh/page/trading/exchange/STOC
是在个股日成交资讯那边抓,持续一段时间后会断公开资讯观测站有IFRS的财报XBRL,可是有些会计科目的细项不在那里面,必须要去原始的PDF档里面找
继续阅读
Re: [问题] 爬虫自动更新程式
Hsins
[问题] 爬虫自动更新程式
WENroger
[问题] 枢纽分析+排序
buyoption
[问题] 在MAC 上用pycharm执行Django
abcd012345
[问题] 无法成功取字串前4码
neil24
[问题] 请问http digest 认证
wisdoms0817
[问题] youtube记录观看人数
tinasfishs
[范例] tensorflow问题在那?
g318
[闲聊] 台北 赠送python教学书
alfven
[问题] python tensorflow spyder启动问题
dinosaur8484
Links
booklink
Contact Us: admin [ a t ] ucptt.com