[问题] 爬虫新手问题 Tampa PTT批踢踢实业坊

[问题] 爬虫新手问题

楼主: Tampa (å…‰èŠ’) 2016-07-26 18:06:51

[问题类型]:
网页爬虫，已找出xpath，但无法制作成data.frame
[软件熟悉度]:
中新手
[问题叙述]:
网页爬虫，想把wiki的球队资讯爬下来
[程式范例]:
library(magrittr)
library(rvest)
URLteam <-
"https://zh.wikipedia.org/wiki/%E7%BE%8E%E5%9C%8B%E8%81%B7%E6%A5%AD%E6%A3%92%E7%90%83%E5%A4%A7%E8%81%AF%E7%9B%9F"
#网页
xpathTeam <- "//table[@class='navbox wikitable']/tbody/tr/td[1]"#球队队名的
xpath
docTeam <- read_html(URLteam, encoding="UTF-8")#将网页读进R
rankTeam<- docTeam %>%
html_nodes(.,xpath = xpathTeam) %>%
html_text %>%
iconv(from = "UTF-8", to = "UTF-8")
stockTmp <- data.frame(team=docTeam)
以下是我喷错的error
Error in as.data.frame.default(x[[i]], optional = TRUE, stringsAsFactors =
stringsAsFactors) :
cannot coerce class "c("xml_document", "xml_node")" to a data.frame
问题1: 不知道怎么了解自己xpath有没有抓对
问题2:data.frame是不是有设定错误?

作者: andrew43 (讨厌有好心推文后删文者) 2016-07-27 01:35:00

把 tbody 拿掉在 docTeam 里可以发现 tbody 不存在忘了检查是否可以复制你的error。不是的话请再说一声。但你的xpath应该没错。我也不知道为什么tbody不见了...

继续阅读

[问题] 请问高手怎么用R做温度的预测统计分析 kindarex [问题] 字串怎么变量字?... 做关联性分析(cor)pockychu [问题] 句子分群jklkj [问题] fread读资料 and 使用 snow 平行f496328mm Re: [分享] 更进一步使用RSelenium抓取PTT内容与通知wanson Re: [分享] 更进一步使用RSelenium抓取PTT内容与通知celestialgod [分享] quantstrat 套件分享naturalsmen [分享] 更进一步使用RSelenium抓取PTT内容与通知wanson [问题] SparkR rJava 安装pk790127 [问题] Fourier Transform, noise and signaldreler1