PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[闲聊] 爬虫背景执行就失败
楼主:
B01201026
(星空萤火虫)
2021-03-20 22:39:54
前情提要:因为工作需要,要下载数千份文档,老板指示土法炼钢一个一个按,于是我发愤开始学python…
手动下载的步骤是:
1.key年份跟代号按搜寻
2.跳出另一 tab 为搜寻结果
3.点结果中的文件连结,跳出另一 tab 有下载链
4.点下载链接下载
于是乎,用requests 试写一段下载单一文件,成功。殊不知而,换了另一个文件就失败。原来是因为网页没开着。
于是找到 selenium ,用各种方法都定位不到搜寻结果画面中的连结位置。
最后的方法是用网址+selenium开搜寻结果画面,就找到连结位置了,然后再把连结丢到requests终于可以顺利下载,在这同时还用层层try except包裹住以及一堆sleep才顺利抓到档案。
昨晚临走前我假会加了一句
opts.add_argument('
作者: NoneNaMey (NoneNamey)
2021-03-29 19:27:00
是抓什么方便私我看看吗XD Selenium抓很慢就算是用headless也会吃很多资源
继续阅读
[问题] 神经元学习的输出不为分类问题
yeahhuman
如何抓高铁登入后的token
code0093
Re: [问题] 在pandas series中找出数个相同排列
gene50814
[问题] 请教一个新手问题
Damnguy
[问题] 计算dict中每一key中的value次数
demon333
[问题] pytest多层呼叫时,missing 1 required p
Talent14
[问题] 在pandas series中找出数个相同排列
razer
[问题] pyinstaller找不到
catrush
[问题] Selenium 登入Google帐号问题
max0616
[资讯] BBS 程式码上色器
pinefruit
Links
booklink
Contact Us: admin [ a t ] ucptt.com