[问答] 想要自学浏览器与网站的交互机制(已解决)

楼主: judark (judark)   2022-10-18 01:10:57
最近在自学网络爬虫,一开始用BeautifulSoup
抓一些简单的静态网页没有问题,抓下来一大串html
我可以用re去解开来一个一个看
但对于需要更进阶操作的网站,就显得有些吃力
我知道可以进一步去学习Selenium或Scrapy
但在那之前,我想先学习一些网站的基本原理
市面上的书通常只会教傻瓜式的架站
我想了解的是,我打开浏览器,F12开后台
Network页面里面的各种机制
像是浏览器式怎么知道要怎么下request
网站response的格式是从哪边取得,怎么知道要怎么解
请问有推荐的详细教学网站或书籍吗?
感谢
作者: LeonH (Leon)   2022-10-18 06:31:00
可以去认识一下 HTTP
作者: CP64 (( ̄▽ ̄#)﹏﹏)   2022-10-19 12:10:00
往下可以看 HTTP/HTTPS 跟再下去一点的 TCP/UDP往上可以看基本的 HTML5/JavaScript/CSS 以及 DOM 相关往上的部份 在 Mozilla 的 MDN 上可以找得到
楼主: judark (judark)   2022-10-20 16:41:00
感谢CP64的指引
作者: LeonH (Leon)   2022-10-17 22:31:00
可以去认识一下 HTTP
作者: CP64 (( ̄▽ ̄#)﹏﹏)   2022-10-19 04:10:00
往下可以看 HTTP/HTTPS 跟再下去一点的 TCP/UDP往上可以看基本的 HTML5/JavaScript/CSS 以及 DOM 相关往上的部份 在 Mozilla 的 MDN 上可以找得到
楼主: judark (judark)   2022-10-20 08:41:00
感谢CP64的指引
作者: pichubaby (Pichu)   2022-10-23 18:57:00
英文吃的动的话想打好基础就去看RFC 我从2616看的然后现在都有HTTPS了,所以比十年前困难一些但是Wireshark还是很棒的工具

Links booklink

Contact Us: admin [ a t ] ucptt.com