[问题] 自订网页关键字

楼主: Tampa (光芒)   2016-07-04 23:17:10
程度:自学一个月左右
问题:如何自订搜寻网页关键字
已安装套件 tmcn 与 RCurl
#读取网页
y<-url.exists("https://zh.wikipedia.org/wiki/%E5%85%B3%E7%BE%BD")
想自订关键字 关羽,关帝圣君(有关于关羽的别称都搜寻出来)
汇出每种名称的种类以及频率
如关羽:10次
关公:5次
等等
请问大大们 是要设定什么函数啊??
作者: andrew43 (讨厌有好心推文后删文者)   2016-07-05 04:09:00
你可能问得太快了。爬一下文了解怎么把全文转字串,再对串字进行处理。在板上按 s 找找 "网页" 这个关键字
楼主: Tampa (光芒)   2016-07-05 00:20:00
C 大 我已经把网页宣告为y 他有办法直接读取y全部并搜寻吗
作者: celestialgod (天)   2016-07-04 23:28:00
stringr的str_extract_all应该可以http://pastebin.com/gqsQipkT这里要有regexp的知识比较好做
作者: psinqoo (零度空間)   2016-07-05 08:19:00
codeJob 不是以征得吗??? Orz还有 不要随便删除文~~~ @@
楼主: Tampa (光芒)   2016-07-05 08:41:00
P大,征得算是找到人可咨询 主要还是想靠自己
作者: psinqoo (零度空間)   2016-07-05 12:10:00
#1KizQPJ
楼主: Tampa (光芒)   2016-07-05 15:09:00
抱歉 不知道 规则所以删掉了
作者: celestialgod (天)   2016-07-05 19:17:00
httr的GET 加上 content就可以拿到网页的文字了,要去掉html标签的话用httr的GET + content + xml2的xml_text看一下前面我回的几篇parsing网页的文章吧

Links booklink

Contact Us: admin [ a t ] ucptt.com