手机打字不想打太多
一般浏览器打开页面可以分成几个步骤:
1. 请求 HTML
2. 解析 HTML 并下载 assets (img, css, js)
3. 执行 js
4. 渲染 DOM
之后就是一直 3 4 按需执行,有动态内容可能还会有 2
当然,实际上的渲染执行步骤比这复杂的多
Selenium 等爬虫最早是透过订制的 Chromium 在不同阶段
存取页面中的 DOM,本质上还是一个浏览器在读取-解析-执行
后来有稳定 API 与 headless 模式以后,Chrome/Chromium/
Firefox 等等主流浏览器几乎都能被直接驱动
扯远了,你说得 requests 应该是指 Python 的 Requests
函式库?那它只有执行上面提到的 1,什么东西都拿不到
是正常的。现代网页开发已走向 SPA/前后端分离,你打开
网页只有给你一个骨架与 js 去执行动态内容,所以你必须
执行上面说的 234 才能得到最终使用者看到的内容。
一般来说写爬虫要快都是去拆 API 来看,不是很复杂的
内容就是自己模拟请求直戳 API,在没有公开 API 文件的
情况下就有如逆向工程般麻烦。你必须知道他的 session
登入端点在哪,用 cookie session 还是 JWT 还是自行开发,
之后所有请求都要带登入验证 token。然后你还要知道戳
哪支 API 才会取得你要的内容,看是 JSON 还是 XML
还是其他奇奇怪怪格式,解析完才能用取得的资料。
次一级是用轻量级的 browser emulator 去模拟浏览器产生
DOM,再去爬模拟的 DOM 内容。因为原生语言优势,
这种通常都是直接写 Node.js 配 jsdom 去执行。
这边必须要注意浏览器内的 js 是在沙箱内执行的,可以用
的 API 很少,但用 nodejs 执行外部来源的 js 就要注意
RCE 等安全问题。
最后就是 Selenium 这种用真正的浏览器跑页面渲染,
相容性最好也安全,任意的 js 程式码被浏览器包装在
浏览器内部,不至于轻易爆破主机,只是速度也最慢。
再来就是看它会不会弹出一个浏览器视窗,如果会的话
代表你没有开 headless mode,有开速度也会快不少...
注:先声明我不会写 python,没用过 Selenium,
一路走来用过 PhantomJS、cheerio、puppeteer
直到现在的 jsdom