[问题] 爬虫程式如何判断某些连结的档名

楼主: martinqqq321 (盖棉被开冷气)   2021-03-01 21:17:25
我写的程式会先用googlesearch.search去找我想要下载的档案,之后会用
r = request.get(url)
with open(name,’wb’) as f:
F.write(r.content)
的方式把档案存下来
最麻烦的地方主要是name的部分,我目前是直接从网址去判断存下的档名和副档名
但有时候google search会出现以下的结果:
Http://www......./index.php?Action=downloadfile&file=............
问题就在downloadfile&file后面都是无法辨识的乱码,请问要如何去侦测这种网址的档
名和档案类型呢
如果直接从chrome去打开这些网址的话,会直接跳到下载档案的画面
作者: zerof (猫橘毛发呆雕像)   2021-03-02 02:01:00
https://mdn.io/Content-Dispositionor just search MDN for “Content-Disposition”
作者: cloudandfree   2021-03-05 16:33:00
Regular expression
作者: mychiux413 (小邱)   2021-03-17 01:29:00
你的r.headers里有线索

Links booklink

Contact Us: admin [ a t ] ucptt.com