前情提要:因为工作需要,要下载数千份文档,老板指示土法炼钢一个一个按,于是我发愤开始学python…
手动下载的步骤是:
1.key年份跟代号按搜寻
2.跳出另一 tab 为搜寻结果
3.点结果中的文件连结,跳出另一 tab 有下载链
4.点下载链接下载
于是乎,用requests 试写一段下载单一文件,成功。殊不知而,换了另一个文件就失败。原来是因为网页没开着。
于是找到 selenium ,用各种方法都定位不到搜寻结果画面中的连结位置。
最后的方法是用网址+selenium开搜寻结果画面,就找到连结位置了,然后再把连结丢到requests终于可以顺利下载,在这同时还用层层try except包裹住以及一堆sleep才顺利抓到档案。
昨晚临走前我假会加了一句
opts.add_argument('