Re: 请益Request爬虫

楼主: s25g5d4 (function(){})()   2023-01-25 15:28:52
手机打字不想打太多
一般浏览器打开页面可以分成几个步骤:
1. 请求 HTML
2. 解析 HTML 并下载 assets (img, css, js)
3. 执行 js
4. 渲染 DOM
之后就是一直 3 4 按需执行,有动态内容可能还会有 2
当然,实际上的渲染执行步骤比这复杂的多
Selenium 等爬虫最早是透过订制的 Chromium 在不同阶段
存取页面中的 DOM,本质上还是一个浏览器在读取-解析-执行
后来有稳定 API 与 headless 模式以后,Chrome/Chromium/
Firefox 等等主流浏览器几乎都能被直接驱动
扯远了,你说得 requests 应该是指 Python 的 Requests
函式库?那它只有执行上面提到的 1,什么东西都拿不到
是正常的。现代网页开发已走向 SPA/前后端分离,你打开
网页只有给你一个骨架与 js 去执行动态内容,所以你必须
执行上面说的 234 才能得到最终使用者看到的内容。
一般来说写爬虫要快都是去拆 API 来看,不是很复杂的
内容就是自己模拟请求直戳 API,在没有公开 API 文件的
情况下就有如逆向工程般麻烦。你必须知道他的 session
登入端点在哪,用 cookie session 还是 JWT 还是自行开发,
之后所有请求都要带登入验证 token。然后你还要知道戳
哪支 API 才会取得你要的内容,看是 JSON 还是 XML
还是其他奇奇怪怪格式,解析完才能用取得的资料。
次一级是用轻量级的 browser emulator 去模拟浏览器产生
DOM,再去爬模拟的 DOM 内容。因为原生语言优势,
这种通常都是直接写 Node.js 配 jsdom 去执行。
这边必须要注意浏览器内的 js 是在沙箱内执行的,可以用
的 API 很少,但用 nodejs 执行外部来源的 js 就要注意
RCE 等安全问题。
最后就是 Selenium 这种用真正的浏览器跑页面渲染,
相容性最好也安全,任意的 js 程式码被浏览器包装在
浏览器内部,不至于轻易爆破主机,只是速度也最慢。
再来就是看它会不会弹出一个浏览器视窗,如果会的话
代表你没有开 headless mode,有开速度也会快不少...
注:先声明我不会写 python,没用过 Selenium,
一路走来用过 PhantomJS、cheerio、puppeteer
直到现在的 jsdom
作者: neo5277 (I am an agent of chaos)   2023-01-25 15:50:00
还是很多
作者: Belieeve (芥末拿铁)   2023-01-25 15:55:00
推推
作者: lchcoding   2023-01-25 17:57:00
同意一楼;还在过年;推有心
作者: walker088 (木栅鲁蛇)   2023-01-25 18:14:00
推一个 go-rod + goquery 可以看看, 比Python Selenium快得多
作者: Gismudis (Gis)   2023-01-25 18:24:00
还是打很多 赞赞
作者: lance70176 (十三夜)   2023-01-25 19:24:00
认真推 最近也在看点你说的方式
作者: holebro (穴弟弟)   2023-01-25 22:01:00
Python+selenium最好写 开心
作者: superpandal   2023-01-25 22:49:00
很常识 建议还是自己刻轮子以符合需求我的话直接用浏览器
作者: viper9709 (阿达)   2023-01-25 23:47:00
推分享
作者: kyotouma (京都马)   2023-01-26 00:24:00
用心推
作者: vi000246 (Vi)   2023-01-26 00:26:00
我都是抓html用正规表达式硬干 现在有dom parser的lib方便多了
作者: andrew771027 (老柏~)   2023-01-26 00:53:00
作者: kurtsgm   2023-01-26 03:21:00
如果回的是明文的json的话倒还是好处理 从浏览器console都还是看得出个端倪 之前遇过某些网站回来居然是打乱的猜不出怎么解密的情况下实在不敢再投入时间下去try
楼主: s25g5d4 (function(){})()   2023-01-26 03:24:00
游戏业很爱用 AES 加密,再来有些会用 msgpack 或 protobuf 让你猜不到 encoding,猜到了也拿不到 key
作者: MoonCode (MoonCode)   2023-01-26 03:27:00
为什么会拿不到 key 阿 @@?
楼主: s25g5d4 (function(){})()   2023-01-26 03:42:00
protobuf 只有序列号没有 key name,要解字段还要先拿到proto 档当然你也可以 argue 前端没有什么真的加密,不管 AES 解密的金钥还是 proto 定义都有办法捞出来,只是做个爬虫有没有必要逆向工程到这么深就是了... XD
作者: vi000246 (Vi)   2023-01-26 09:54:00
return 乱码是满常见的反爬虫 在前端加解密只是多了一些步骤 现在有能在后端执行js的lib ,这类反爬虫也比较好解了以前要一行一行执行js的code看乱码是怎么还原的 然后在后端写出一样的算法
作者: shibin (喜饼)   2023-01-26 18:01:00
作者: syyu641 (恩好)   2023-01-26 18:05:00
推用心
作者: CRPKT (crpkt)   2023-01-26 19:14:00
jsdom 建议不要,行为比真 DOM 差太远,速度快不了多少
作者: v86861062 (数字人:3)   2023-01-26 21:45:00
推推
作者: MoonCode (MoonCode)   2023-01-26 21:53:00
回 s25g5d4 js 的逆向没有倒多复杂吧
楼主: s25g5d4 (function(){})()   2023-01-26 23:47:00
没有很难跟要不要花时间拆下去是两回事阿
作者: timofEE (新人)   2023-01-27 00:04:00
推好心
作者: shter (飞梭之影)   2023-01-27 13:49:00
怀念PhantomJS,现在用 Node.js + puppeteer说实话 Node.js 去操作 DOM 对前端工程师还是最直觉不管是用来爬虫还是做自动化测试
楼主: s25g5d4 (function(){})()   2023-01-27 14:08:00
以前在图书馆打工写过 phantomjs + firefox~ 虽然我本来就是 fx 使用者,但当时会用 fx 还是因为图书馆电脑还在winXP 没办法装 Chrome XDD
作者: a82611141   2023-01-29 14:12:00

Links booklink

Contact Us: admin [ a t ] ucptt.com