[问题] 网络爬虫抓资料问题

楼主: jasonfghx (工人)   2018-01-15 08:38:17
[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_4960.djhtm
我想抓"所属产业" 这四个字
因为我用utf-8的网页练习都没问题
但这个big5 的 执行出来都是空的
想请问是有什么问题在里面吗
[程式范例]:
library(plyr)
library(dplyr)
library(data.table)
library(stringi)
base_url <- "http://jsjustweb.jihsun.com.tw"
url <- "http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_"
t_url <- paste0(url, i="4960.djhtm")
doc1 <- read_html(t_url, encoding = "big5")
xpath <- '//div[@id="SysJustIFRAMDIV"]/a'
title <- xml_text(xml_find_all(doc1, xpath))
[关键字]:
网络爬虫
很感谢回复
※ 编辑: jasonfghx (180.217.127.44), 01/15/2018 16:21:59
※ 编辑: jasonfghx (180.217.127.44), 01/15/2018 16:22:20
作者: andrew43 (讨厌有好心推文后删文者)   2018-01-15 18:07:00
主要的原因是左上的目录内容是javascript产生的。
楼主: jasonfghx (工人)   2018-01-15 18:44:00
所以说遇到这种网站是捞不到资料?
作者: andrew43 (讨厌有好心推文后删文者)   2018-01-15 20:12:00
我不在行,但Google R fetch HTML generated by JavaScript 有看到不少解法。
楼主: jasonfghx (工人)   2018-01-15 21:05:00
谢谢

Links booklink

Contact Us: admin [ a t ] ucptt.com