[问题]用data.frame中的某个column撷取网页资料

楼主: stinky (stinky)   2014-02-03 21:25:34
[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
新手(没写过程式,R 是我的第一次)
[问题叙述]:
各位好
我需要下载数百个基因的资料
网址的格式是:
http://www.ncbi.nlm.nih.gov/gene/XXXX
其中XXXX是这些基因的ID(可能是四个数字或更多)
比如GAPDH ID是2597
那连结就是:http://www.ncbi.nlm.nih.gov/gene/2597
如果我的data frame中有一个column是这些IDs
我应该如何写出简单的R scripts来撷取这些网页中的"Summary"中的叙述
并加到原本data.frame中相对应rows 形成一个新的column (不包括"Summary"这字本身)
例如对GAPDH而言就是
"This gene encodes ... variants. [provided by RefSeq, Jan 2014]"
我想应该是用Rcurl跟grep
但因为完全外行
不知道如何逐个ID数值加到Rcurl网址的最后
再将下载的网页以grep搜寻到的strings加到对应的rows里
这样的问题很不专业
如果有任何的提示都欢迎
谢谢各位专家
[程式范例]:
[关键字]: R 网页下载 部分撷取
作者: andrew43 (讨厌有好心推文后删文者)   2014-02-04 05:34:00
二个关键:paste() 和 regexpr(). 请见我的回文.

Links booklink

Contact Us: admin [ a t ] ucptt.com