[问题] 是网站改版?还是刻意防爬虫?

楼主: mejichoco (UoU)   2021-08-16 15:52:23
因为工作的原因,还有暂时资料的撷取
需要到书店的网页撷取资料
但是在爬了3个月之后,网站突然网址不一样
然后request的内容跟开发者工具的HTML不一样
但是因为image网站不稳定,那我直接到巴哈求助的内容
直接贴上来
https://forum.gamer.com.tw/Co.php?bsn=60292&sn=16212
这是爬虫爬到的 requests
https://gist.github.com/cj044/f28bdb5372d8d9692bf07fa7d0fbc729
完全没有,我所需要如下的价钱,以及装订(peprback)
这是开发者的 HTML
https://gist.github.com/cj044/9a889246299bb3562841e647706b438f
如果真的不行,我直接换网站好了
我只是要里面的资料,不是要攻击网站
还是用AMAZON 或是 ebay的API 直接代替爬虫
但是Amazon 网络上没有相关撷取书籍资料至EXCEL的python实作资料,实在很困扰
作者: x94fujo6   2021-08-16 18:40:00
作者: Hsins (翔)   2021-08-16 23:20:00
老实说, 是你基础不好, 天珑没这么难爬- 对方网站没有太多的方式判断你是不是要攻击他, 对他来说就是网络请求, 但这个请求如果太多太快, 对他来说可以用这个特征认为你是要攻击。实际上,售票网站那种抢票状况对网站来说可以算是攻击呀!因为会让我服务器无法正常处理。你用自动化的方式去拿资料,没有销售行为,对他来说也是种攻击。- robots.txt 并不会影响你送请求跟返回的讯息,他是给一 些遵守规范的人/程式看的,有些自动化爬虫程式看到不允就不会去爬他,当然你的爬虫也可以忽略他的声明继续爬,顺带一提,如果对方 robots.txt 言明不想被爬但你还用自化手段获取资料,在某些国家是违法行为会吃官司的。- 一楼的推文被你编辑文章删掉了,我想他要说的是你想要的资料,都可以在请求后所拿到的 HTML 原始文件中取得,而这些资料被放在 <header> 元素中
作者: Kitten1156 (Frank_kitten)   2021-08-17 00:43:00
知道有robot.txt知道有robot.txt但是从来没去认真看他 哈
作者: poototo (poototo)   2021-08-17 08:31:00
降低爬速,加proxy
作者: mantour (朱子)   2021-08-18 22:55:00
我爬出来都很正常耶, 你是怎么爬得要不要说一下

Links booklink

Contact Us: admin [ a t ] ucptt.com