我现在正在处理一些有关于生物资讯的资料
基本上的资料格式长这样
ID A_1 A_2 B_1 B_2 ……
1 0/0 0/0
2 0/0 ./.
3 ./. ./.
4. 0/0 0/1
5. 1/1 0/1
6. 0/1 0/1
……
接着我想要做几件事情
依据相同字母的样本(像是A_1和A_2)
逐列统计四种字段的数量
1. A_1和A_2相同
2. A_1和A_2都一样是./.
3. A_1和A_2不一样
4. 以及任一样本含有./.的字段数量
以上表为例
A_1和A_2相同的数量是3 (ID1, 3, 6)
两行数值都是./.的数量是1
A_1和A_2不同的列有3 (ID2, 4, 5)
有任一行数值为./.的数量为2 (ID2, 3)
然后统计成四个数值这样并输出
不过有问题的部分是要如何撷取含有特定字串的两栏
并逐行进行逻辑判断?
我知道可以利用awk逐行进行撷取并用grep计算数量并输出 (不过awk和grep的管线顺序还没参透)
但要如何依据相同字母撷取特定行就不清楚了
想问有什么指令可以针对首列带有特定字串的行进行撷取?