[问题]用data.frame中的某个column撷取网页资料 stinky PTT批踢踢实业坊

[问题]用data.frame中的某个column撷取网页资料

楼主: stinky (stinky) 2014-02-03 21:25:34

[问题类型]:
程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
[软件熟悉度]:
新手(没写过程式，R 是我的第一次)
[问题叙述]:
各位好
我需要下载数百个基因的资料
网址的格式是:
http://www.ncbi.nlm.nih.gov/gene/XXXX
其中XXXX是这些基因的ID(可能是四个数字或更多)
比如GAPDH ID是2597
那连结就是：http://www.ncbi.nlm.nih.gov/gene/2597
如果我的data frame中有一个column是这些IDs
我应该如何写出简单的R scripts来撷取这些网页中的"Summary"中的叙述
并加到原本data.frame中相对应rows 形成一个新的column (不包括"Summary"这字本身)
例如对GAPDH而言就是
"This gene encodes ... variants. [provided by RefSeq, Jan 2014]"
我想应该是用Rcurl跟grep
但因为完全外行
不知道如何逐个ID数值加到Rcurl网址的最后
再将下载的网页以grep搜寻到的strings加到对应的rows里
这样的问题很不专业
如果有任何的提示都欢迎
谢谢各位专家
[程式范例]:
[关键字]: R 网页下载部分撷取

作者: andrew43 (讨厌有好心推文后删文者) 2014-02-04 05:34:00

二个关键：paste() 和 regexpr(). 请见我的回文.

继续阅读

[问题] 想请问合并交互作用图的codingtokyo291 [问题] 如何对两个 data.frame 做 Join？kusoayan Re: [问题] 将多个data frame放入list进行操作Wush978 [问题] 将多个data frame放入list进行操作ireullin [问题] 平行运算 60 核gsuper [分享] 五分钟学会“如何使用Rstudio建立R套件 Wush978 [问题] 用R软件做购物篮分析(关联规则)shirley587 [闲聊] 请问大家都在做什么工作?gsuper Re: [问题] 品质与压缩率最平衡的位置Wush978 [分享] R 编码简介Wush978