[问题] Selenium抓不到src的连结(已解决)

楼主: fragmentwing (片翼碎梦)   2023-03-06 12:43:00
问题解决,单纯只是class的位置搞混了
如题,想做爬虫抓图
用的网站是这个https://unsplash.com/
这是正确的class位置:https://imgur.com/Ri0YcfK
我从这篇开始改的:https://reurl.cc/OVEXz9
另外他这篇的程式码改成现在用的语法可以运作后不知道为什么只能存一张图片
(大概是我太不熟这类爬虫工具了......)
我的程式码如下:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import os
import time
import numpy as np
options = Options()
folder_path = os.getcwd()
driver_path = folder_path + "\chromedriver_win32\chromedriver.exe"
options.chrome_executable_path = driver_path
driver = webdriver.Chrome(options=options)
driver.maximize_window()
img_url_dic = {}
driver.get("https://unsplash.com/s/photos/burger")
# print(driver.page_source)
position = 0
picture_number = 0
for i in range(10):
position += i*500 + np.random.randint(100)
js = "document.documentElement.scrollTop=%d" % position
driver.execute_script(js)
time.sleep(np.random.random())
tags = driver.find_elements(By.XPATH,"//img[contains(@class,'tB6UZ
a5VGX')]")
src = []
for tag in tags:
src.append(tag.get_attribute('src'))
# print(src)
for i,element in enumerate(src):
print(i,element)
src_len = len(src)
print(f'{src_len=}')
driver.close()
楼主: fragmentwing (片翼碎梦)   2023-03-06 13:00:00
啊 靠腰 我知道哪里错了 class是在src后面那个才是不过这篇先留着 不知道哪里还有错 正在吃饭 等会回去修正改到目前可以了,虽然还是被反爬虫挡掉我把标题和内文修改一下

Links booklink

Contact Us: admin [ a t ] ucptt.com