[问答] 想要自学浏览器与网站的交互机制(已解决) judark PTT批踢踢实业坊

[问答] 想要自学浏览器与网站的交互机制(已解决)

楼主: judark (judark) 2022-10-18 01:10:57

最近在自学网络爬虫，一开始用BeautifulSoup
抓一些简单的静态网页没有问题，抓下来一大串html
我可以用re去解开来一个一个看
但对于需要更进阶操作的网站，就显得有些吃力
我知道可以进一步去学习Selenium或Scrapy
但在那之前，我想先学习一些网站的基本原理
市面上的书通常只会教傻瓜式的架站
我想了解的是，我打开浏览器，F12开后台
Network页面里面的各种机制
像是浏览器式怎么知道要怎么下request
网站response的格式是从哪边取得，怎么知道要怎么解
请问有推荐的详细教学网站或书籍吗？
感谢

作者: LeonH (Leon) 2022-10-18 06:31:00

可以去认识一下 HTTP

作者: CP64 ((￣▽￣＃)﹏﹏) 2022-10-19 12:10:00

往下可以看 HTTP/HTTPS 跟再下去一点的 TCP/UDP往上可以看基本的 HTML5/JavaScript/CSS 以及 DOM 相关往上的部份在 Mozilla 的 MDN 上可以找得到

楼主: judark (judark) 2022-10-20 16:41:00

感谢CP64的指引

作者: LeonH (Leon) 2022-10-17 22:31:00

可以去认识一下 HTTP

作者: CP64 ((￣▽￣＃)﹏﹏) 2022-10-19 04:10:00

往下可以看 HTTP/HTTPS 跟再下去一点的 TCP/UDP往上可以看基本的 HTML5/JavaScript/CSS 以及 DOM 相关往上的部份在 Mozilla 的 MDN 上可以找得到

楼主: judark (judark) 2022-10-20 08:41:00

感谢CP64的指引

作者: pichubaby (Pichu) 2022-10-23 18:57:00

英文吃的动的话想打好基础就去看RFC 我从2616看的然后现在都有HTTPS了，所以比十年前困难一些但是Wireshark还是很棒的工具

继续阅读

[问答] 共用资料夹的IP问题anhbclbe rspan与local span各侧录封包的mac会一样吗？HILL33LOVE [除错]Deco M4有讯号但偶尔连不上网络junghsin623 [问答] Netgear 交换器坏了，请推荐换哪一个牌ironmanstock [问答] 双WAN的Router能否一台当两台用HeroFun [问答] 都用有线回程三频机独立频道能让出来吗?waiter337 [问答] 请教网络遮罩与ip范围（已解决）roger0918 [除错] 部份设备拿到DHCP的闸道为0.0.0.0asd721 [除错] AX23 比另一台WI-FI 5还慢fu1vu03 [问答] 有线异常，无线正常。IPv4异常，IPv6正常。wtmjs