[问题] 爬虫网站

楼主: jackjenny (痛苦)   2020-10-14 01:44:38
请教大家有关爬虫问题
我有爬虫各航空公司的货物运单状态
甲去大陆购物 可从业者提供的报关单、主提单、副提单 查到包裹状态
例如:飞机起飞与否等资讯、清关状态
这是华航的CARGO 货况查询 网站
https://reurl.cc/5qKZzq
因为有JS所以利用selenium+BeautifulSoup 可以轻松爬到任何html资料
我不是用path下去定位而是抓取id找想要的到资料
但有些id长这样:
ContentPlaceHolder1_rpFlightEvent_lblWgt_0
ContentPlaceHolder1_rpFlightEvent_lblPcs_0
ContentPlaceHolder1_rpFlightEvent_lblArrTime_0
ContentPlaceHolder1_rpFlightEvent_lblOff_0
Q1.id尾数都是无意义的乱码字母与数字组成
我这次可以轻松爬到资料,下次该怎防范尾数产生新的乱码id了?
Q2.如Q1. 网站这样做 算是反爬虫手段之一吗?
谢谢
作者: totte (totte)   2020-10-14 02:31:00
这应该是aspnet写的 你爬的是grid资料?印象中grid每列里的控件会长一个数字
作者: mychiux413 (小邱)   2020-10-14 11:42:00
A2. 我没点进去,但那可能是前端框架如react编译后的产物,下次他再编译上新版前端,乱码可能就会变,确实可以防爬虫,但你就不要抓id就好只是他最尾是0比较奇怪,通常会是一串hash code
作者: rexyeah (ccccccc)   2020-10-14 12:03:00
execute script to find substr of id and return?
楼主: jackjenny (痛苦)   2020-10-14 14:41:00
谢谢楼上 我先做一下功课楼上提到关键字1F 1.我看这是ASPNET没错 2.我看前端码没有grid
作者: single4565 (leekdumpling韭菜水饺)   2020-10-14 18:33:00
用正则表达式看看能不能解决?
楼主: jackjenny (痛苦)   2020-10-14 18:33:00
关键字 应该不是grid3F 1.只有绑id了 连class都没有10F 我来研究正则是看看好了 担心下次爬不到7F 不太明白你意思 我已经可以轻松抓取id资料但这id好像是乱码产生 担心下改抓不到Y
作者: ToastBen (吐司边)   2020-10-14 19:16:00
推7F大大 定位父元素往下找
作者: TakiDog (多奇狗)   2020-10-14 22:59:00
Xpath很好用
作者: boboye (me)   2020-10-15 10:06:00
可以利用regular去爬前面那些固定的字
作者: stillcolor (鬼艾伦)   2020-10-15 11:42:00
这情况就用xpath,算是最快解决的方式了吧
作者: kobe8112 (小B)   2020-10-15 15:09:00
如推文所述,我也习惯用Xpath定位,但你举的这几个例子,看起来跟“乱码”有点差距,是指哪几个字是乱码啊?
作者: stillcolor (鬼艾伦)   2020-10-16 10:12:00
原po应该是想要表达‘随机码’才对吧
作者: kobe8112 (小B)   2020-10-16 17:50:00
我意思就是我看不出来哪里乱码/随机,他举的例子看起来是有意义的缩写不是?

Links booklink

Contact Us: admin [ a t ] ucptt.com