讲一下我写爬虫的思路好了
第一步是分析网页 用chrome的F12
有个NetWork页签
手动执行网页 看送出去的表头长怎样 Response是什么
我推荐用fiddler这软件取代F12
它有个composer功能 把你发送的request复制下来贴到这里
能直接发送同样的request 你可以用这个功能研究是哪个header会影响response
做完第一步 你可以把整个流程写下来 列出每个request
登入->进到影片列表->取得影片连结->换页
p.s. 如果登入有验证码的话 这网站你可以先跳过了
这该死的图要学很多东西才绕得过去
通常会在取得影片连结这边卡住
这边就只能看经验了 有的直接抓mp4的连结
有的要用一连串的request才能取得真实连结
有的用swf的player拨放 还要反组译swf看他怎么request的
这是我用来抓vimeo影片的程式码 vimeo把影片连结藏在iframe里
https://goo.gl/VSVjFb
第二步是清理数据
成功取得html后 就要想辨法拿到目标资料
我以前是用正规表达式硬干
但现在有很多方便的东西 像beautifulsoup 或是lxml
像这里第77行开始 就是用xpath抓的
https://goo.gl/G52XKH
取到影片连结后就简单了 取个不重复的档名存到硬盘就好
列一下你会用到的关键字
html、javascript(选配 有些网站会用js防爬虫 需要分析js程式码)、
正规表达式、xpath(这东东是类似jquery选择器的东西)
python的requests、beautifulsoup函式库
当然你也可以直接学selenium 就不需要上面繁琐的分析request流程了
但是想要爬难一点的网站 基本功还是很重要的
selenium把一些很难克服的反爬虫机制 ex. csrf token、用Ajax写的单页式网站
cookie等等 很简单就绕过了
当然想速成的话用selenium是最快的
你可以参考一下