[问题] 是网站改版?还是刻意防爬虫? mejichoco PTT批踢踢实业坊

[问题] 是网站改版?还是刻意防爬虫?

楼主: mejichoco (UoU) 2021-08-16 15:52:23

因为工作的原因，还有暂时资料的撷取
需要到书店的网页撷取资料
但是在爬了3个月之后，网站突然网址不一样
然后request的内容跟开发者工具的HTML不一样
但是因为image网站不稳定，那我直接到巴哈求助的内容
直接贴上来
https://forum.gamer.com.tw/Co.php?bsn=60292&sn=16212
这是爬虫爬到的 requests
https://gist.github.com/cj044/f28bdb5372d8d9692bf07fa7d0fbc729
完全没有，我所需要如下的价钱，以及装订(peprback)
这是开发者的 HTML
https://gist.github.com/cj044/9a889246299bb3562841e647706b438f
如果真的不行，我直接换网站好了
我只是要里面的资料，不是要攻击网站
还是用AMAZON 或是 ebay的API 直接代替爬虫
但是Amazon 网络上没有相关撷取书籍资料至EXCEL的python实作资料，实在很困扰

作者: x94fujo6 2021-08-16 18:40:00

https://i.imgur.com/PRL07xa.png

作者: Hsins (翔) 2021-08-16 23:20:00

老实说, 是你基础不好, 天珑没这么难爬- 对方网站没有太多的方式判断你是不是要攻击他, 对他来说就是网络请求, 但这个请求如果太多太快, 对他来说可以用这个特征认为你是要攻击。实际上，售票网站那种抢票状况对网站来说可以算是攻击呀！因为会让我服务器无法正常处理。你用自动化的方式去拿资料，没有销售行为，对他来说也是种攻击。- robots.txt 并不会影响你送请求跟返回的讯息，他是给一　些遵守规范的人／程式看的，有些自动化爬虫程式看到不允就不会去爬他，当然你的爬虫也可以忽略他的声明继续爬，顺带一提，如果对方 robots.txt 言明不想被爬但你还用自化手段获取资料，在某些国家是违法行为会吃官司的。- 一楼的推文被你编辑文章删掉了，我想他要说的是你想要的资料，都可以在请求后所拿到的 HTML 原始文件中取得，而这些资料被放在 <header> 元素中

作者: Kitten1156 (Frank_kitten) 2021-08-17 00:43:00

知道有robot.txt知道有robot.txt但是从来没去认真看他哈

作者: poototo (poototo) 2021-08-17 08:31:00

降低爬速，加proxy

作者: mantour (朱子) 2021-08-18 22:55:00

我爬出来都很正常耶, 你是怎么爬得要不要说一下

继续阅读

[问题] 公开资讯观测站股东会爬虫ccherry225 Re: [问题] 无法在MacOS上安装tesseractHsins [问题] 无法在MacOS上安装tesseractwuweihsun [问题] python有动态遮罩的语法吗？poocherd [问题] dataframe指定index_col取值问题Talent14 Re: [问题] 多个function的变量需互通的运用ddavid Re: [问题] 多个function的变量需互通的运用piligo [问题] 多个function的变量需互通的运用piligo [问题] 开发网页用Python好吗？kinjk01 [资讯] 104人力银行 Python 网络爬虫实例g919233