[问题] 资料撷取

楼主: aattsat (Tala)   2012-06-11 10:25:04
各位大大好
最近在撰写一个程式
是在一笔资料中(为.dat档)要撷取部分资料成为fasta档
范例为其中一笔序列资料 如下
ID 104K_THEPA STANDARD; PRT; 924 AA.
AC P15711;
DT 01-APR-1990 (Rel. 14, Created)
DE 104 kDa microneme-rhoptry antigen.
OS Theileria parva.
OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;
OC Theileria.
OX NCBI_TaxID=5875;
RN [1]
RP SEQUENCE FROM N.A.
RC STRAIN=Muguga;
RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;
RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,
RA Musoke A.J.;
RT "Characterisation of the gene encoding a 104-kilodalton microneme-
RT rhoptry protein of Theileria parva.";
RL Mol. Biochem. Parasitol. 39:47-60(1990).
CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.
CC
作者: iFEELing (ing)   2012-06-11 22:15:00
每行开头两个字是空白的?啊 没看到底下还有
作者: OneGuilty (喵`)   2012-06-13 17:06:00
一般正规化做得到这么复杂吗@@?不考虑用split等之类的处理??
作者: piglon (TEST123)   2012-06-15 22:01:00
何不一行一行处理
作者: s4553711   2012-06-16 17:35:00
序列都在最后面,所以读到SQ之后跳下一行,之后全读,再把空白拿掉,应该就可以了吧
作者: windincloud (虹霓之恋)   2012-06-21 11:31:00
NCBI应该没那摸麻烦吧~直接选fasta就可以下载seq不是?

Links booklink

Contact Us: admin [ a t ] ucptt.com