[问题] 网络爬虫抓资料问题 jasonfghx PTT批踢踢实业坊

[问题] 网络爬虫抓资料问题

楼主: jasonfghx (工人) 2018-01-15 08:38:17

[问题类型]:
程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
[软件熟悉度]:
入门(写过其他程式，只是对语法不熟悉)
[问题叙述]:
http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_4960.djhtm
我想抓"所属产业" 这四个字
因为我用utf-8的网页练习都没问题
但这个big5 的执行出来都是空的
想请问是有什么问题在里面吗
[程式范例]:
library(plyr)
library(dplyr)
library(data.table)
library(stringi)
base_url <- "http://jsjustweb.jihsun.com.tw"
url <- "http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_"
t_url <- paste0(url, i="4960.djhtm")
doc1 <- read_html(t_url, encoding = "big5")
xpath <- '//div[@id="SysJustIFRAMDIV"]/a'
title <- xml_text(xml_find_all(doc1, xpath))
[关键字]:
网络爬虫
很感谢回复
※ 编辑: jasonfghx (180.217.127.44), 01/15/2018 16:21:59
※ 编辑: jasonfghx (180.217.127.44), 01/15/2018 16:22:20

作者: andrew43 (讨厌有好心推文后删文者) 2018-01-15 18:07:00

主要的原因是左上的目录内容是javascript产生的。

楼主: jasonfghx (工人) 2018-01-15 18:44:00

所以说遇到这种网站是捞不到资料?

作者: andrew43 (讨厌有好心推文后删文者) 2018-01-15 20:12:00

我不在行，但Google R fetch HTML generated by JavaScript 有看到不少解法。

楼主: jasonfghx (工人) 2018-01-15 21:05:00

谢谢

继续阅读

[问题] shiny呼叫local端R档adam100830 [问题] 回归固定效果问题tony1331 [问题] 时间序列, 想在同一时间上呈现两种数据jasonfghx [问题] quantmod chartSeries 绘图问题gitsvn [分享] R shiny web app 一些经验杂谈cywhale [问题] 改趋势图中的legandparanoia5201 [问题] combinationslambking Re: [问题] 制作dummy variable矩阵效能问题celestialgod [问题] 有效率的字串比对方法sFKP [问题] 在R里面的if then output写法？paranoia5201