Re: [问题] python 爬虫得到加密的资料

楼主: Hsins (翔)   2022-11-04 16:37:31
※ 引述《a199111222 (oyeh)》之铭言:
: 先附上想爬的网页
: https://marketchameleon.com/Overview/AAPL/Similar/
: 想要爬取表格的全部资料
: 以前用post 抓下来的格式是json
: 现在是一串乱码
: 请问这样还有办法爬吗?
要爬是能爬,但就看你要花多少时间跟成
本去处理他而已。
: 我用selenium去开这个网址,连表格内资料也不显示......
: 有大大能提供解决的方向吗?谢谢
透过开发者工具可以发现,这些资料是打
POST 请求到对方的 IIS 服务器拿到编码
过后的资料,这个我想你应该已经取得。
如果你尝试去检查他拿到这份资料在干嘛
,会发现这个 AJAX 操作在成功取得资料
后会呼叫以下这个函数:
https://i.imgur.com/04uNmaA.png
楼主: Hsins (翔)   2022-11-04 16:57:00
不过看起来 xcr_json_inner() 就能解码成原来的 JSON 了
作者: lycantrope (阿宽)   2022-11-04 17:08:00
佛心来着w
作者: surimodo (好吃棉花糖)   2022-11-04 17:49:00
1也不是不行 但研究要解码那串真的太麻烦了 他包了好几层很难解最后实际解好像是 enc_dcr_xor 这个函式
作者: a199111222 (oyeh)   2022-11-04 17:57:00
作者: cuteSquirrel (松鼠)   2022-11-04 18:04:00
专业推
楼主: Hsins (翔)   2022-11-04 18:29:00
大概是连文都懒得看ㄅ
作者: cloki (夜云天)   2022-11-04 19:42:00
专业推
作者: yiche (你若安好,便是晴天)   2022-11-04 19:54:00
哈哈哈哈哈 还帮trace 太好心啦
作者: cuteSquirrel (松鼠)   2022-11-04 20:17:00
楼主今天超佛
作者: smartree (阿路)   2022-11-05 00:44:00
感谢
作者: chang1248w (彩棠)   2022-11-05 02:22:00
作者: TakiDog (多奇狗)   2022-11-05 06:53:00
哈哈 佛心给推
作者: a199111222 (oyeh)   2022-11-05 09:44:00
谢谢版主专业的回复,让我有方向,虽然我还没成功...对新手来说有点太难,需要一点时间消化,再次感谢隐藏selenium的webdriver就成功了,感谢版主
作者: aidansky0989 (alta)   2022-11-05 17:30:00
爬虫就是要动点脑破解
作者: KINGWAP (阿姆斯撞)   2022-11-05 23:38:00
完全看呒 只能无脑推
作者: cmsisgod (单宁酸)   2022-11-06 07:24:00
版上一堆高手@@
作者: hackmoney   2022-11-08 14:28:00
佛心 推一个

Links booklink

Contact Us: admin [ a t ] ucptt.com