[问题] 无法把网站的图片下载下来 alen84204 PTT批踢踢实业坊

[问题] 无法把网站的图片下载下来

楼主: alen84204 (Dana) 2019-03-08 22:55:27

最近在练习验证码辨识
想说试试看自己测试其他网站能不能成功
结果光是下载验证码图片就困扰我一阵子啦
同样的code
在gztown就抓得到
https://pt.gztown.net/login.php
但是在学校网站却抓不到
https://www.ais.tku.edu.tw/EleCos/login.aspx
想请教该如何解决?
code如下(从#1QFyrfBX (Python)改写的):
import shutil
import requests
import time
from bs4 import BeautifulSoup
SAVEPATH = "./data/manual_label/"
url = "https://pt.gztown.net/login.php"
#url = 'http://railway1.hinet.net/ImageOut.jsp'
for i in range(1, 3000):
#先抓出验证码图片的网址 img_url
r = requests.get(url, stream = True)
soup = BeautifulSoup(r.text, 'html.parser')
img = soup.find_all('img')
src = img[1].get('src')
img_url = "https://pt.gztown.net/" + src
response = requests.get(img_url, stream=True)
with open(SAVEPATH + str(i) + '.jpg', 'wb') as out_file:
shutil.copyfileobj(response.raw, out_file)
del response
time.sleep(0.1)
谢谢各位前辈

作者: rexyeah (ccccccc) 2019-03-08 23:15:00

我想是因为台铁只有一个<IMG> 所以是img[0].get(...)

作者: f496328mm (为什么会流泪) 2019-03-09 01:13:00

用selenium去截图、切图

楼主: alen84204 (Dana) 2019-03-09 08:01:00

selenium我是直接模拟右键下载但想说requests速度较快也可以自动下载后的档案名称

作者: vi000246 (Vi) 2019-03-09 11:48:00

用debug去跑看有没有抓到东西

作者: nini200 (200妮妮) 2019-03-09 16:48:00

显示 500 错误往这方向去查

继续阅读

[问题] 如何删除exe执行后产生的资源档XperiaZ6C [问题] Spyder3 icon 消失elone Re: [问题] 初学该选哪一本书？a9202507 [问题] numpy中的.shape问题chen8958 Re: [问题] 开机自动执行python py档案Bellkna [问题] 在python底下执行MySQL法语aa811016 Re: [问题] 爬虫：换页与主题的双重循环adrianshum Re: [问题] 开机自动执行python py档案sma1033 [问题] 开机自动执行python py档案threeSecGun Re: [问题] 爬虫：换页与主题的双重循环rexyeah