[问题] js生成的网页 资料抓取

楼主: justleave (静静的就好)   2019-07-17 15:19:11
[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
如下图,想抓取红色方框中的资料
https://imgur.com/gk9qBoH.jpg
已知该表格由javascript动态生成
爬了开发者工具 始终找不到资料存放的位置或网址
倒是下面的大表格中有找到资料
有想说是不是需要GET/POST来获得资料
但找不到确切的url 不知从何下手
希望能有大大帮忙开示解惑
[程式范例]:
name <- "NovakDjokovic"
url2 <- paste0("http://www.tennisabstract.com/cgi-bin/player.cgi?p=", name)
page2 <- read_html(url2)
html_text(page2)
会print出一堆程式码但没有我要的资料
[环境叙述]:
R version 3.3.3 (2017-03-06)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)
[关键字]:
网页爬虫 rvest javascript
作者: whs2009 (欧森)   2019-07-17 17:28:00
rselenium 可以试试如果要爬动态的话配合 chrome的 selectorgadget找出位址
楼主: justleave (静静的就好)   2019-07-17 18:10:00
因为是js生成 selectorgadget 找到的里面没资料 会试试Rselenium
作者: celestialgod (天)   2019-07-17 19:20:00
直接看它有没有从什么API取得资料 改成直接打API
作者: andrew43 (讨厌有好心推文后删文者)   2019-07-18 08:44:00
这个网页大部份内容都是内JS生成,老方法是真的捞不到的它也没有用到ajax。网页主要表格刻在js,而你要的表格则是主要表格再做整理而已。所以,达成js render,或是直接取js中的数据再统计
楼主: justleave (静静的就好)   2019-07-19 00:21:00
后来用Rselenium解决了~感谢大家
作者: nbkl   2019-08-26 15:20:00
可以分享一下。解法吗。 先前有遇到这样子的问题。 但一直解不掉

Links booklink

Contact Us: admin [ a t ] ucptt.com