[问题] 爬虫 url 空白的问题 ibgvdlbj PTT批踢踢实业坊

[问题] 爬虫 url 空白的问题

楼主: ibgvdlbj (:)) 2019-08-09 13:44:16

Hi 大家好
小妹新手上路
正在试用 python3 urllib.request 从一个网站里下载多个pdf档案
后来发现 400 错误
仔细研究后发现有些 pdf 的link 有空白，在正确的网址下空白则用%20代替
想请问大家该怎么解决?
因为有些pdf link 没有空白的问题
目前在猜想是不是可以这样写?
import urllib.parse
for url in url_list[:]
url =root_url + url
urllib.parse.quote(url)
getFile(url)
麻烦各位大大了，谢谢!!

作者: CodingMan (程式侠) 2019-08-09 15:03:00

url encode?

作者: niceguy (niceguy) 2019-08-09 15:06:00

replace(' ','%20') ?

楼主: ibgvdlbj (:)) 2019-08-09 23:07:00

可以请1楼上大大详细一点说明吗？新手上路 @@2楼大大我试着写url = root_url + urlurl.replace(“ “, “%20”)getFile(url)还是不行、不知道哪边写错@@

作者: CodingMan (程式侠) 2019-08-09 23:11:00

url = url.repalce()......

楼主: ibgvdlbj (:)) 2019-08-10 00:04:00

已跑出～谢谢C大！另外想请问，我写raw_url 给定网址（第一页）下载，但其实还有下5页的pdf file （想下载100份 pdf files) 不知道在这部分要怎么写呢？

作者: jiyu520 (不要鲫鱼我) 2019-08-10 09:17:00

学习google噢爬虫有许多资源和范例

作者: CodingMan (程式侠) 2019-08-10 09:25:00

网页有连结就找出来没有就观察规则

楼主: ibgvdlbj (:)) 2019-08-10 12:58:00

好的，我来试试，有问题再上来请教，谢谢各位 :)

继续阅读

[问题] python networkx 距离pig98520 [问题] Python find 语法chetsai [问题] 字串的换行跳脱字符问题wargods8402 [问题] 如何连续输入数字在接口上gakki520 [问题] pandas读特定行数转矩阵canon760d [问题] 排除os.walk中的“路径”s4028600 [问题] 医疗人员想学程式推荐okokok0410 [问题] requests如何登入端传媒?kevinjet [问题] python3中pip安装，找无SSLspong [问题] python无法执行TUBJ

[问题] 爬虫 url 空白 的问题

[问题] 爬虫 url 空白的问题