作者:
Hsins (翔)
2021-08-16 23:20:00老实说, 是你基础不好, 天珑没这么难爬- 对方网站没有太多的方式判断你是不是要攻击他, 对他来说就是网络请求, 但这个请求如果太多太快, 对他来说可以用这个特征认为你是要攻击。实际上,售票网站那种抢票状况对网站来说可以算是攻击呀!因为会让我服务器无法正常处理。你用自动化的方式去拿资料,没有销售行为,对他来说也是种攻击。- robots.txt 并不会影响你送请求跟返回的讯息,他是给一 些遵守规范的人/程式看的,有些自动化爬虫程式看到不允就不会去爬他,当然你的爬虫也可以忽略他的声明继续爬,顺带一提,如果对方 robots.txt 言明不想被爬但你还用自化手段获取资料,在某些国家是违法行为会吃官司的。- 一楼的推文被你编辑文章删掉了,我想他要说的是你想要的资料,都可以在请求后所拿到的 HTML 原始文件中取得,而这些资料被放在 <header> 元素中