PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
R_Language
[问题] 自订网页关键字
楼主:
Tampa
(光芒)
2016-07-04 23:17:10
程度:自学一个月左右
问题:如何自订搜寻网页关键字
已安装套件 tmcn 与 RCurl
#读取网页
y<-url.exists("https://zh.wikipedia.org/wiki/%E5%85%B3%E7%BE%BD")
想自订关键字 关羽,关帝圣君(有关于关羽的别称都搜寻出来)
汇出每种名称的种类以及频率
如关羽:10次
关公:5次
等等
请问大大们 是要设定什么函数啊??
作者:
andrew43
(讨厌有好心推文后删文者)
2016-07-05 04:09:00
你可能问得太快了。爬一下文了解怎么把全文转字串,再对串字进行处理。在板上按 s 找找 "网页" 这个关键字
楼主:
Tampa
(光芒)
2016-07-05 00:20:00
C 大 我已经把网页宣告为y 他有办法直接读取y全部并搜寻吗
作者:
celestialgod
(天)
2016-07-04 23:28:00
stringr的str_extract_all应该可以
http://pastebin.com/gqsQipkT
这里要有regexp的知识比较好做
作者:
psinqoo
(零度空間)
2016-07-05 08:19:00
codeJob 不是以征得吗??? Orz还有 不要随便删除文~~~ @@
楼主:
Tampa
(光芒)
2016-07-05 08:41:00
P大,征得算是找到人可咨询 主要还是想靠自己
作者:
psinqoo
(零度空間)
2016-07-05 12:10:00
#1KizQPJ
楼主:
Tampa
(光芒)
2016-07-05 15:09:00
抱歉 不知道 规则所以删掉了
作者:
celestialgod
(天)
2016-07-05 19:17:00
httr的GET 加上 content就可以拿到网页的文字了,要去掉html标签的话用httr的GET + content + xml2的xml_text看一下前面我回的几篇parsing网页的文章吧
继续阅读
[问题] 处理资料 效能询问
spiderway
[心得] strptime 与中文
Edster
[问题] R graph with two y-axes
amber219212
[问题] 判断row的重复个数并做某个计算
bedroom0204
[问题] 在mac上plot中文出现方块的永久解决方案
JJabrams
[问题] 请教Rmpi设定哪里出了问题
dp2046
[问题] R的规划求解 optim()、constrOptim()
MrSomebody
[情报] R 语言入门课程(7/21 ~ 7/22,南科)
wanggz
Re: [问题] Magrittr 小问题
celestialgod
[问题] Magrittr 小问题
swedrf0112
Links
booklink
Contact Us: admin [ a t ] ucptt.com