[问题] 爬虫网站 jackjenny PTT批踢踢实业坊

[问题] 爬虫网站

楼主: jackjenny (痛苦) 2020-10-14 01:44:38

请教大家有关爬虫问题
我有爬虫各航空公司的货物运单状态
甲去大陆购物可从业者提供的报关单、主提单、副提单查到包裹状态
例如:飞机起飞与否等资讯、清关状态
这是华航的CARGO 货况查询网站
https://reurl.cc/5qKZzq
因为有JS所以利用selenium+BeautifulSoup 可以轻松爬到任何html资料
我不是用path下去定位而是抓取id找想要的到资料
但有些id长这样:
ContentPlaceHolder1_rpFlightEvent_lblWgt_0
ContentPlaceHolder1_rpFlightEvent_lblPcs_0
ContentPlaceHolder1_rpFlightEvent_lblArrTime_0
ContentPlaceHolder1_rpFlightEvent_lblOff_0
Q1.id尾数都是无意义的乱码字母与数字组成
我这次可以轻松爬到资料，下次该怎防范尾数产生新的乱码id了?
Q2.如Q1. 网站这样做算是反爬虫手段之一吗?
谢谢

作者: totte (totte) 2020-10-14 02:31:00

这应该是aspnet写的你爬的是grid资料?印象中grid每列里的控件会长一个数字

作者: mychiux413 (小邱) 2020-10-14 11:42:00

A2. 我没点进去，但那可能是前端框架如react编译后的产物，下次他再编译上新版前端，乱码可能就会变，确实可以防爬虫，但你就不要抓id就好只是他最尾是0比较奇怪，通常会是一串hash code

作者: rexyeah (ccccccc) 2020-10-14 12:03:00

execute script to find substr of id and return?

楼主: jackjenny (痛苦) 2020-10-14 14:41:00

谢谢楼上我先做一下功课楼上提到关键字1F 1.我看这是ASPNET没错 2.我看前端码没有grid

作者: single4565 (leekdumpling韭菜水饺) 2020-10-14 18:33:00

用正则表达式看看能不能解决？

楼主: jackjenny (痛苦) 2020-10-14 18:33:00

关键字应该不是grid3F 1.只有绑id了连class都没有10F 我来研究正则是看看好了担心下次爬不到7F 不太明白你意思我已经可以轻松抓取id资料但这id好像是乱码产生担心下改抓不到Y

作者: ToastBen (吐司边) 2020-10-14 19:16:00

推7F大大定位父元素往下找

作者: TakiDog (多奇狗) 2020-10-14 22:59:00

Xpath很好用

作者: boboye (me) 2020-10-15 10:06:00

可以利用regular去爬前面那些固定的字

作者: stillcolor (鬼艾伦) 2020-10-15 11:42:00

这情况就用xpath，算是最快解决的方式了吧

作者: kobe8112 (小B) 2020-10-15 15:09:00

如推文所述，我也习惯用Xpath定位，但你举的这几个例子，看起来跟“乱码”有点差距，是指哪几个字是乱码啊?

作者: stillcolor (鬼艾伦) 2020-10-16 10:12:00

原po应该是想要表达‘随机码’才对吧

作者: kobe8112 (小B) 2020-10-16 17:50:00

我意思就是我看不出来哪里乱码/随机，他举的例子看起来是有意义的缩写不是?

继续阅读

[问题] iOS App前端想用Python写后端darrenlee1 [问题] Clustering 问题求解moodoa3583 [问题] 监督式学习的准确度度量问题ericerix [资讯] Python /JS免费线上小聚piggglet [问题] 爬虫时出现中文乱码nzej723yyip [问题] 高铁爬虫失效yiche [问题] 有人会selenium触发其他扩充元件吗?aasssdddd [问题] 台湾证券交易所爬虫kakar0to [问题] 用捷径透过cmd执行py档kevin1732 Re: [问题] 看起来像是同一个字，印到图上却不一样art1