[问题] 爬虫 Google search

楼主: yoz4ni (yoooooz)   2020-06-09 11:25:13
请问一下
再拿到 response 后用 tag 去找资料会失败
为什么我执行的时候很容易失败
https://i.imgur.com/xs0Hu1x.jpg
偶尔会成功
https://i.imgur.com/LF6VOjR.jpg
我 header 放
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
请问有人有遇到过这样的问题吗?
我后来把 cookie 也全部加进去也没效 QQ
作者: pmove (金疾柠檬)   2020-06-09 12:22:00
失败时,回传的资料是?
作者: mychiux413 (小邱)   2020-06-09 12:30:00
找看看有没有'recaptcha'的id,有的话就是机器人在挡爬google的所有动作最好是每5秒动一次比较安全如果recaptcha跳出来,可以休息10分钟后再来
楼主: yoz4ni (yoooooz)   2020-06-09 14:55:00
回传的资料如果是找 tag 的话是没资料的(空的)请问是 recaptcha 的话要在哪里才能看的到呢?
作者: alvinlin (林矜业)   2020-06-09 15:54:00
https://opendata.cwb.gov.tw/indexhttps://i.imgur.com/FlRV1Na.jpg另Google Custom Search API 也参考有API用API吧。爬东西很累人的
作者: mychiux413 (小邱)   2020-06-09 16:05:00
会有一个element的id叫做'recaptcha', 可以用bs4找
作者: alvinlin (林矜业)   2020-06-09 16:22:00
找到recaptcha也没用。破解不了的
作者: OrzOGC (洞八达人.拖哨天王)   2020-06-09 18:00:00
一个人硬干是赢不过google那些工程师的
楼主: yoz4ni (yoooooz)   2020-06-10 02:24:00
因为我是在练习,所以想说不去用 API 来抓资料看看还是说这样的练习其实是不需要的OAO我晚点去把回传资料找看看有没有 id 是 recaptcha 的
作者: alvinlin (林矜业)   2020-06-10 03:13:00
也不是这样说。因为看你已经正确抓到资料了,所以你的程式没问题。但你如果是要去对付reCaptcha这我试过没找到方法。所以你只能绕道。刚好这个有API那应该试着用其他方法取得资料,而不是和它硬干。https://i.imgur.com/PxU7cb6.jpg
作者: vi000246 (Vi)   2020-06-10 09:07:00
通常google有api的东西就不要自己爬了 赢不了google工程师的
作者: shadowjohn (转角遇到爱)   2020-06-10 09:26:00
爬的内容你连续多抓几个分页频率一高就被档了
作者: femlro (母猪教谋神异端审问官1.5)   2020-06-10 16:26:00
我有时候手动搜寻快一点都被挡了 何况爬虫
作者: aidansky0989 (alta)   2020-06-10 16:35:00
只有更新cookies还不够,IP时间等等都要调
作者: salmon12706 (Ellen)   2020-06-29 16:15:00
工研院人工智能课程推荐https://reurl.cc/4RDRaK

Links booklink

Contact Us: admin [ a t ] ucptt.com