[问题] 关于爬网页的新手问题 edl2000 PTT批踢踢实业坊

[问题] 关于爬网页的新手问题

楼主: edl2000 (Eduardo) 2019-10-02 17:38:17

看了一些网络上的教学之后开始练习抓资料
PTT跟yahoo有固定的html 格式的可以抓到了
不过巴哈姆特的排行榜却很奇怪
https://forum.gamer.com.tw/?page=1&c=21
我看他的资料都在 Javascript里面
这样要怎么处理...有没有可以指点一下 >_<"
谢谢

作者: dododavid006 (朔雪) 2019-10-02 21:34:00

我之前有用过一种作法是把资料从 js 找出来然后加上一段转成 json 的 code 再整个拿去给 nodejs 跑跑完有就 json 了不过这样其实挺麻烦的就有

作者: vi000246 (Vi) 2019-10-03 09:12:00

用regex把整段js存起来再找能直译js的lib

楼主: edl2000 (Eduardo) 2019-10-03 09:21:00

好的,谢谢两位,来试试看

作者: frank910138 (frank) 2019-10-03 18:49:00

去看js 内容有办法抓出来改写成python?

作者: TitanEric (泰坦) 2019-10-03 19:47:00

花时间改写不如丢给nodejs跑比较快

作者: Falldog (Yo) 2019-10-10 22:17:00

不就直接call他的api就好了吗!?https://forum.gamer.com.tw/ajax/rank.php?c=21&page=1

楼主: edl2000 (Eduardo) 2019-10-14 18:26:00

看到了，感谢指点，已经成功爬回来写入档案

继续阅读

[问题] 爬虫新手问题Tungod [问题] jupyter python不能存盘新增档案superpaden [问题] 为什么break不出来PoPonn [问题] 用array去计算离差平方和与离差和乘积gohard Re: [问题] 超级新手python 算成绩问题Archi821 [问题] 超级新手python 算成绩问题Archi821 [问题] 请问如何将程式码打印出来（有格式的）nicha115 [问题] 请问关于循环的问题nanami [闲聊] 女巫猎人random一直跑Trun?gogogo123 [问题] CNN图片辨识，贴标签问题asa121