[问题] 爬虫初试 asdfrtg PTT批踢踢实业坊

[问题] 爬虫初试

楼主: asdfrtg (asdfrtg) 2020-07-20 22:26:49

[问题类型]:
效能咨询(我想让R 跑更快
[软件熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
想试图用XML里的套件readHTMLTable()爬https://reurl.cc/arOM1D的表格
当作练习却没反应
按照https://reurl.cc/Wd68Gx也没办法整理
所以小弟本人决定用硬a的方式....
想请问有什么方法可以直接爬虫下来并且整理好成表格的@@
[程式范例]:
setwd("D:\\")
d1<-read.csv("行政院环境保护署标案.csv",header=F)
a1<-data.frame(t(d1[1:6,]))
a2<-data.frame(t(d1[7:12,]))
a3<- data.frame(t(d1[13:18,]))
a4<- data.frame(t(d1[19:24,]))
a5<- data.frame(t(d1[25:30,]))
a6<- data.frame(t(d1[31:36,]))
a7<- data.frame(t(d1[37:42,]))
a8<- data.frame(t(d1[43:48,]))
a9<- data.frame(t(d1[49:54,]))
a10<- data.frame(t(d1[55:60,]))
a11<- data.frame(t(d1[61:66,]))
a12<- data.frame(t(d1[67:72,]))
.
.
.
.
.
result<-rbind(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,........)
[环境叙述]:
R4.02
[关键字]:
爬虫、rvest、XML、XML2

作者: locka (locka) 2020-07-20 23:22:00

你的程式码跟rvest没关系啊…没反应的话至少也贴上你的程式码让大家知道你卡在哪里…有的时候爬不下来可能因为表格内容是动态产生的，如果对于html观念不熟的话，或许可以使用rselenium套件试看看

楼主: asdfrtg (asdfrtg) 2020-07-21 00:09:00

感谢l大提点不过是想让这段程式码可以变成爬虫到表格一条龙能够解决...所以才提出效能咨询@@

作者: locka (locka) 2020-07-21 00:29:00

我刚刚试了一下你贴的网址，的确没有那么好爬，我再研究一下。是说你的d1长什么样子啊？看起来你现在是贴到csv然后再读取，既然要这样为什么不贴上的时候就整理好？

作者: andrew43 (讨厌有好心推文后删文者) 2020-07-21 00:51:00

有点偷鸡的方法：https://ideone.com/CO8og9其实只是抓每个cell再排到matrix里而已

作者: locka (locka) 2020-07-21 13:20:00

其实爬虫就是把网页上你按右键查看原始码的东西抓下来，所以read_html()会需要，然后重点是要会解析标签，我个人常用xml_find_all()取出想要的内容，以上都是rvest/xml2套件看了一下，selecttogadget是帮助你解析网页元素的xpath，这部分相同功能的东西chrome扩充应用程式商店很多，挑习惯的用就好。更正：SelectorGadget

作者: andrew43 (讨厌有好心推文后删文者) 2020-07-21 15:23:00

推locka，最常用就是rvest或xml2。

继续阅读

[问题] 想用r爬虫YouTube音讯asdfrtg [问题] Excel的ifs如何在R里面呈现hahayunping [问题] R语言统计资料协助bateri [问题] 模型参数设定momotree [问题] for loop 加速totolink [问题] 随机抽样并检验Mensch5566 [问题] 跳脱字符的问题？eco100 [问题]去掉不含中文的向量empireisme [问题] 征求R语言投资专案协助（有酬hchsmonkey [问题]时间序列 forecast()相关问题asdfrtg