[问题] google search 爬虫

楼主: jackjenny (痛苦)   2024-02-03 06:58:45
我只想在对google search 爬取文章
例如 [email protected] 有多少业者
https://imgur.com/a/kLSId6D
会对结果收集并存放到excel
一笔资料会有五个字段
1.网域
2.完整网域
3.主标题
4.内文
5.图片网址
对我发现一个问题
每个物件用BS4的class都是随机乱码,
造成不保证后续都可以用同个class去抓
我自己用了几次 目前都是同个物件class(乱码)没变
但我觉得可能过几天就会更换
Q1.请问google search 结果的html class似乎都是乱码取名该怎应对?
Q2.class=VwiC3b yXK7lf lVm3ye r025kc hJNv6b Hdw6tb
这怎class该怎抓阿 名称太长且中间有空格,一直抓失败..
作者: abcd (ABCD)   2024-02-03 14:17:00
我是没有仔细受研究 但你可以用XPath抓抓看 我也不确定可不可以
作者: JerryChungYC (JerryChung)   2024-02-04 02:02:00
往下找有个 var m = {} 有存那些资讯 可以看看
楼主: jackjenny (痛苦)   2024-02-04 03:45:00
J大 不懂意思 找不到耶
作者: AndCycle (AndCycle)   2024-02-10 21:52:00
你乖乖付钱就有api可以用, 你这样爬很快会被挡

Links booklink

Contact Us: admin [ a t ] ucptt.com