[问题] 自订网页关键字 Tampa PTT批踢踢实业坊

[问题] 自订网页关键字

楼主: Tampa (å…‰èŠ’) 2016-07-04 23:17:10

程度:自学一个月左右
问题:如何自订搜寻网页关键字
已安装套件 tmcn 与 RCurl
#读取网页
y<-url.exists("https://zh.wikipedia.org/wiki/%E5%85%B3%E7%BE%BD")
想自订关键字关羽，关帝圣君(有关于关羽的别称都搜寻出来)
汇出每种名称的种类以及频率
如关羽:10次
关公:5次
等等
请问大大们是要设定什么函数啊??

作者: andrew43 (讨厌有好心推文后删文者) 2016-07-05 04:09:00

你可能问得太快了。爬一下文了解怎么把全文转字串，再对串字进行处理。在板上按 s 找找 "网页" 这个关键字

楼主: Tampa (å…‰èŠ’) 2016-07-05 00:20:00

C 大我已经把网页宣告为y 他有办法直接读取y全部并搜寻吗

作者: celestialgod (å¤©) 2016-07-04 23:28:00

stringr的str_extract_all应该可以http://pastebin.com/gqsQipkT这里要有regexp的知识比较好做

作者: psinqoo (é›¶åº¦ç©ºé–“) 2016-07-05 08:19:00

codeJob 不是以征得吗??? Orz还有不要随便删除文~~~ @@

楼主: Tampa (å…‰èŠ’) 2016-07-05 08:41:00

P大，征得算是找到人可咨询主要还是想靠自己

作者: psinqoo (é›¶åº¦ç©ºé–“) 2016-07-05 12:10:00

#1KizQPJ

楼主: Tampa (å…‰èŠ’) 2016-07-05 15:09:00

抱歉不知道规则所以删掉了

httr的GET 加上 content就可以拿到网页的文字了，要去掉html标签的话用httr的GET + content + xml2的xml_text看一下前面我回的几篇parsing网页的文章吧

继续阅读

[问题] 处理资料效能询问spiderway [心得] strptime 与中文Edster [问题] R graph with two y-axesamber219212 [问题] 判断row的重复个数并做某个计算bedroom0204 [问题] 在mac上plot中文出现方块的永久解决方案JJabrams [问题] 请教Rmpi设定哪里出了问题dp2046 [问题] R的规划求解 optim()、constrOptim()MrSomebody [情报] R 语言入门课程（7/21 ～ 7/22，南科）wanggz Re: [问题] Magrittr 小问题celestialgod [问题] Magrittr 小问题swedrf0112