[闲聊] 爬虫背景执行就失败 B01201026 PTT批踢踢实业坊

[闲聊] 爬虫背景执行就失败

楼主: B01201026 (星空萤火虫) 2021-03-20 22:39:54

前情提要：因为工作需要，要下载数千份文档，老板指示土法炼钢一个一个按，于是我发愤开始学python…
手动下载的步骤是：
1.key年份跟代号按搜寻
2.跳出另一 tab 为搜寻结果
3.点结果中的文件连结，跳出另一 tab 有下载链
4.点下载链接下载
于是乎，用requests 试写一段下载单一文件，成功。殊不知而，换了另一个文件就失败。原来是因为网页没开着。
于是找到 selenium ，用各种方法都定位不到搜寻结果画面中的连结位置。
最后的方法是用网址+selenium开搜寻结果画面，就找到连结位置了，然后再把连结丢到requests终于可以顺利下载，在这同时还用层层try except包裹住以及一堆sleep才顺利抓到档案。
昨晚临走前我假会加了一句
opts.add_argument('

作者: NoneNaMey (NoneNamey) 2021-03-29 19:27:00

是抓什么方便私我看看吗XD Selenium抓很慢就算是用headless也会吃很多资源

继续阅读

[问题] 神经元学习的输出不为分类问题yeahhuman 如何抓高铁登入后的tokencode0093 Re: [问题] 在pandas series中找出数个相同排列gene50814 [问题] 请教一个新手问题Damnguy [问题] 计算dict中每一key中的value次数demon333 [问题] pytest多层呼叫时，missing 1 required pTalent14 [问题] 在pandas series中找出数个相同排列razer [问题] pyinstaller找不到catrush [问题] Selenium 登入Google帐号问题max0616 [资讯] BBS 程式码上色器pinefruit