[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
新手(没写过程式,R 是我的第一次)
[问题叙述]:
各位好
我需要下载数百个基因的资料
网址的格式是:
http://www.ncbi.nlm.nih.gov/gene/XXXX
其中XXXX是这些基因的ID(可能是四个数字或更多)
比如GAPDH ID是2597
那连结就是:http://www.ncbi.nlm.nih.gov/gene/2597
如果我的data frame中有一个column是这些IDs
我应该如何写出简单的R scripts来撷取这些网页中的"Summary"中的叙述
并加到原本data.frame中相对应rows 形成一个新的column (不包括"Summary"这字本身)
例如对GAPDH而言就是
"This gene encodes ... variants. [provided by RefSeq, Jan 2014]"
我想应该是用Rcurl跟grep
但因为完全外行
不知道如何逐个ID数值加到Rcurl网址的最后
再将下载的网页以grep搜寻到的strings加到对应的rows里
这样的问题很不专业
如果有任何的提示都欢迎
谢谢各位专家
[程式范例]:
[关键字]: R 网页下载 部分撷取