[问题] Selenium抓不到src的连结(已解决) fragmentwing PTT批踢踢实业坊

[问题] Selenium抓不到src的连结(已解决)

楼主: fragmentwing (片翼碎梦) 2023-03-06 12:43:00

问题解决，单纯只是class的位置搞混了
如题，想做爬虫抓图
用的网站是这个https://unsplash.com/
这是正确的class位置:

我从这篇开始改的:https://reurl.cc/OVEXz9
另外他这篇的程式码改成现在用的语法可以运作后不知道为什么只能存一张图片
(大概是我太不熟这类爬虫工具了......)
我的程式码如下:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import os
import time
import numpy as np
options = Options()
folder_path = os.getcwd()
driver_path = folder_path + "\chromedriver_win32\chromedriver.exe"
options.chrome_executable_path = driver_path
driver = webdriver.Chrome(options=options)
driver.maximize_window()
img_url_dic = {}
driver.get("https://unsplash.com/s/photos/burger")
# print(driver.page_source)
position = 0
picture_number = 0
for i in range(10):
position += i*500 + np.random.randint(100)
js = "document.documentElement.scrollTop=%d" % position
driver.execute_script(js)
time.sleep(np.random.random())
tags = driver.find_elements(By.XPATH,"//img[contains(@class,'tB6UZ
a5VGX')]")
src = []
for tag in tags:
src.append(tag.get_attribute('src'))
# print(src)
for i,element in enumerate(src):
print(i,element)
src_len = len(src)
print(f'{src_len=}')
driver.close()

楼主: fragmentwing (片翼碎梦) 2023-03-06 13:00:00

啊靠腰我知道哪里错了 class是在src后面那个才是不过这篇先留着不知道哪里还有错正在吃饭等会回去修正改到目前可以了，虽然还是被反爬虫挡掉我把标题和内文修改一下

继续阅读

[问题] 初学者对于Python路径问题fred1541 [问题] Django+dbf数据库可行性forkome [问题] VSCode IntelliSense不再记忆变量名了？Sylph [问题] BeautifulSoup如何排除特定classatb [问题] vscode切换python版本后的一连串问题fragmentwing [问题] requests的ssl验证问题gene50814 [问题] 如何在fly.io部属有selenium爬虫aocaoef [问题] 用Selenium 定位Instgram搜寻页无法定位lalelee [问题] Django 可以动态产生数据库与资料表吗?pshuang [问题] jupyter没有kernels文件fragmentwing