[问题] html网络爬虫，网页无法跑出资料 lovedmagic PTT批踢踢实业坊

[问题] html网络爬虫，网页无法跑出资料

楼主: lovedmagic (EricZou) 2016-12-03 16:39:07

[问题类型]:
程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
[软件熟悉度]:
新手(没写过程式，R 是我的第一次)
[问题叙述]:
我想将某个网页的资料读取后分析资料，但是一开始就卡关
[程式范例]:
library(XML)
library(RCurl)
ur1=getURL("https://www.kickstarter.com/discover/advanced?woe_id=23424900&sort=magic&seed=2467921&page=2")
ur1.1 = readHTMLTable(ur1)
test_doc = htmlParse(ur1,encoding="big5")
test = readHTMLTable(test_doc)
View(test)
我一开始是直接使用ur1="网址"，后来在板上发现有另外一个方法就是getURL("网址")
，之后用readHTMLTable(ur1)去做，但是我不了解htmlParse不知道有什么作用，我在
板上也看到许多econding写成"big5"和"UT-8"(←这是印象)，好像会发生编码还是转
码上的问题导致之后R的操作中文部分都会变成乱码，最后用View(test)去跑发生了
Error in View(test) : invalid 'x' argument 的问题
我想请问各位大大，关于kickstart我想取用里面每一个project就是每一个分页理面
的backers和pledge of MX$ goal还有days to go三项数字，但是我光是读取页面就已
经发生问题了，请问我在readHTMLTable这方面究竟出现什么样的问题呢？
[环境叙述]:
Windows 7
R 3.2.2
[关键字]:
网络爬虫、html

作者: celestialgod (å¤©) 2016-12-04 18:42:00

你这个网址里面看不出来有table阿用html_table抓不到东西就属于正常了

作者: celestialgod (å¤©) 2016-12-03 16:59:00

请爱用rvest跟xml2

楼主: lovedmagic (EricZou) 2016-12-03 17:03:00

cel大你好，因为我这次也是帮朋友代问，他说他跑之前那个html_table会出现乱码，是因为没有下载某个package吗??

作者: celestialgod (å¤©) 2016-12-03 17:22:00

windows都要跑Sys.setlocale("LC_ALL", 'C')

楼主: lovedmagic (EricZou) 2016-12-03 17:26:00

每个步骤都有跑还是会有错误

那可能要看网页的encoding我不在电脑前可能不方便查，晚点帮看

楼主: lovedmagic (EricZou) 2016-12-03 19:23:00

非常感谢

继续阅读

Re: [问题] 特定条件下的列与列时间运算celestialgod [问题] shiny sever 更新资料samex4x4 Re: [问题] 一笔资料转多笔memphis [问题] 特定条件下的列与列时间运算joson4921 Re: [问题] 一笔资料转多笔celestialgod Re: [问题] 一笔资料转多笔cywhale Re: [问题] 一笔资料转多笔HeroNoah Re: [问题] 一笔资料转多笔celestialgod Re: [问题] which与if运用celestialgod [问题] which与if运用huangsam