[问题] 关于爬网页的新手问题

楼主: edl2000 (Eduardo)   2019-10-02 17:38:17
看了一些网络上的教学之后开始练习抓资料
PTT跟yahoo有固定的html 格式的可以抓到了
不过巴哈姆特的排行榜却很奇怪
https://forum.gamer.com.tw/?page=1&c=21
我看他的资料都在 Javascript里面
这样要怎么处理...有没有可以指点一下 >_<"
谢谢
作者: dododavid006 (朔雪)   2019-10-02 21:34:00
我之前有用过一种作法是把资料从 js 找出来 然后加上一段转成 json 的 code 再整个拿去给 nodejs 跑跑完有就 json 了 不过这样其实挺麻烦的就有
作者: vi000246 (Vi)   2019-10-03 09:12:00
用regex把整段js存起来 再找能直译js的lib
楼主: edl2000 (Eduardo)   2019-10-03 09:21:00
好的,谢谢两位,来试试看
作者: frank910138 (frank)   2019-10-03 18:49:00
去看js 内容有办法抓出来改写成python?
作者: TitanEric (泰坦)   2019-10-03 19:47:00
花时间改写不如丢给nodejs跑比较快
作者: Falldog (Yo)   2019-10-10 22:17:00
不就直接call他的api就好了吗!?https://forum.gamer.com.tw/ajax/rank.php?c=21&page=1
楼主: edl2000 (Eduardo)   2019-10-14 18:26:00
看到了,感谢指点,已经成功爬回来写入档案

Links booklink

Contact Us: admin [ a t ] ucptt.com