[问题] 爬虫 url 空白 的问题

楼主: ibgvdlbj (:))   2019-08-09 13:44:16
Hi 大家好
小妹新手上路
正在试用 python3 urllib.request 从一个网站里下载多个pdf档案
后来发现 400 错误
仔细研究后 发现 有些 pdf 的link 有空白,在正确的网址下空白则用%20代替
想请问大家该怎么解决?
因为有些pdf link 没有空白的问题
目前在猜想是不是可以这样写?
import urllib.parse
for url in url_list[:]
url =root_url + url
urllib.parse.quote(url)
getFile(url)
麻烦各位大大了,谢谢!!
作者: CodingMan (程式侠)   2019-08-09 15:03:00
url encode?
作者: niceguy (niceguy)   2019-08-09 15:06:00
replace(' ','%20') ?
楼主: ibgvdlbj (:))   2019-08-09 23:07:00
可以请1楼上大大 详细一点说明吗? 新手上路 @@2楼大大 我试着写url = root_url + urlurl.replace(“ “, “%20”)getFile(url)还是不行、不知道哪边写错@@
作者: CodingMan (程式侠)   2019-08-09 23:11:00
url = url.repalce()......
楼主: ibgvdlbj (:))   2019-08-10 00:04:00
已跑出~ 谢谢C大!另外想请问,我写raw_url 给定网址(第一页)下载,但其实还有下5页的pdf file (想下载100份 pdf files) 不知道在这部分要怎么写呢?
作者: jiyu520 (不要鲫鱼我)   2019-08-10 09:17:00
学习google噢 爬虫有许多资源和范例
作者: CodingMan (程式侠)   2019-08-10 09:25:00
网页有连结就找出来 没有就观察规则
楼主: ibgvdlbj (:))   2019-08-10 12:58:00
好的,我来试试,有问题再上来请教,谢谢各位 :)

Links booklink

Contact Us: admin [ a t ] ucptt.com