请教大家有关爬虫问题
我有爬虫各航空公司的货物运单状态
甲去大陆购物 可从业者提供的报关单、主提单、副提单 查到包裹状态
例如:飞机起飞与否等资讯、清关状态
这是华航的CARGO 货况查询 网站
https://reurl.cc/5qKZzq
因为有JS所以利用selenium+BeautifulSoup 可以轻松爬到任何html资料
我不是用path下去定位而是抓取id找想要的到资料
但有些id长这样:
ContentPlaceHolder1_rpFlightEvent_lblWgt_0
ContentPlaceHolder1_rpFlightEvent_lblPcs_0
ContentPlaceHolder1_rpFlightEvent_lblArrTime_0
ContentPlaceHolder1_rpFlightEvent_lblOff_0
Q1.id尾数都是无意义的乱码字母与数字组成
我这次可以轻松爬到资料,下次该怎防范尾数产生新的乱码id了?
Q2.如Q1. 网站这样做 算是反爬虫手段之一吗?
谢谢
作者:
totte (totte)
2020-10-14 02:31:00这应该是aspnet写的 你爬的是grid资料?印象中grid每列里的控件会长一个数字
A2. 我没点进去,但那可能是前端框架如react编译后的产物,下次他再编译上新版前端,乱码可能就会变,确实可以防爬虫,但你就不要抓id就好只是他最尾是0比较奇怪,通常会是一串hash code
作者:
rexyeah (ccccccc)
2020-10-14 12:03:00execute script to find substr of id and return?
谢谢楼上 我先做一下功课楼上提到关键字1F 1.我看这是ASPNET没错 2.我看前端码没有grid
作者:
single4565 (leekdumpling韭菜水饺)
2020-10-14 18:33:00用正则表达式看看能不能解决?
关键字 应该不是grid3F 1.只有绑id了 连class都没有10F 我来研究正则是看看好了 担心下次爬不到7F 不太明白你意思 我已经可以轻松抓取id资料但这id好像是乱码产生 担心下改抓不到Y
作者:
TakiDog (多奇狗)
2020-10-14 22:59:00Xpath很好用
作者:
boboye (me)
2020-10-15 10:06:00可以利用regular去爬前面那些固定的字
如推文所述,我也习惯用Xpath定位,但你举的这几个例子,看起来跟“乱码”有点差距,是指哪几个字是乱码啊?
我意思就是我看不出来哪里乱码/随机,他举的例子看起来是有意义的缩写不是?