[闲聊] 爬虫背景执行就失败

楼主: B01201026 (星空萤火虫)   2021-03-20 22:39:54
前情提要:因为工作需要,要下载数千份文档,老板指示土法炼钢一个一个按,于是我发愤开始学python…
手动下载的步骤是:
1.key年份跟代号按搜寻
2.跳出另一 tab 为搜寻结果
3.点结果中的文件连结,跳出另一 tab 有下载链
4.点下载链接下载
于是乎,用requests 试写一段下载单一文件,成功。殊不知而,换了另一个文件就失败。原来是因为网页没开着。
于是找到 selenium ,用各种方法都定位不到搜寻结果画面中的连结位置。
最后的方法是用网址+selenium开搜寻结果画面,就找到连结位置了,然后再把连结丢到requests终于可以顺利下载,在这同时还用层层try except包裹住以及一堆sleep才顺利抓到档案。
昨晚临走前我假会加了一句
opts.add_argument('
作者: NoneNaMey (NoneNamey)   2021-03-29 19:27:00
是抓什么方便私我看看吗XD Selenium抓很慢就算是用headless也会吃很多资源

Links booklink

Contact Us: admin [ a t ] ucptt.com