[问题] 爬虫程式如何判断某些连结的档名 martinqqq321 PTT批踢踢实业坊

[问题] 爬虫程式如何判断某些连结的档名

楼主: martinqqq321 (盖棉被开冷气) 2021-03-01 21:17:25

我写的程式会先用googlesearch.search去找我想要下载的档案，之后会用
r = request.get(url)
with open(name,’wb’) as f:
F.write(r.content)
的方式把档案存下来
最麻烦的地方主要是name的部分，我目前是直接从网址去判断存下的档名和副档名
但有时候google search会出现以下的结果：
Http://www......./index.php?Action=downloadfile&file=............
问题就在downloadfile&file后面都是无法辨识的乱码，请问要如何去侦测这种网址的档
名和档案类型呢
如果直接从chrome去打开这些网址的话，会直接跳到下载档案的画面

作者: zerof (猫橘毛发呆雕像) 2021-03-02 02:01:00

https://mdn.io/Content-Dispositionor just search MDN for “Content-Disposition”

作者: cloudandfree 2021-03-05 16:33:00

Regular expression

作者: mychiux413 (小邱) 2021-03-17 01:29:00

你的r.headers里有线索

继续阅读

Re: [心得] 九九乘法表不使用循环LP9527 Re: [问题] 如何优化循环的写法LP9527 Re: [问题] 如何优化循环的写法Schottky [问题] 如何优化循环的写法xji4y3ru [问题] 如何爬一个每次打开来都不太一样的网页freddy [问题] 请问各位指令是要用背的，还是用查的？fraternity Re: [心得] 九九乘法表不使用循环Schottky [心得] 九九乘法表不使用循环Schottky [心得] 计算π到小数点下十亿位 ─ 超进化版Schottky [心得] 计算ｅ到小数点下十亿位 ─ 超进化版Schottky