Nature communications, DOI: 10.1038/ncomms12474, http://goo.gl/Px17VS
这篇文章其实没有提出新的方法,用的都是旧有的方法,像是naive Bayes、SVM这些,
所以他们创新的地方只有纳入了prognosis(survival time)。然后虽然摘要看起来很厉
害,其实没有真的那么厉害。
首先他们提到要用电脑做这件事的原因是,即使是experienced pathologists都不见得能
正确辨识non-small cell lung cancer的各种subtypes(我没有去check reference 20,
但看起来应该是这样),然后其中对于adenocarcinoma和squamous carcinoma的分辨率又
很低。
但是他们的各种方法表现得比较好的部分(AUC=0.8左右)其实是在tumor part versus
normal part的部份,可是这部份他们没有提供一般pathologists的辨识率。在
adenocarcinoma versus squamous carcinoma的部份其实AUC只有0.7左右。乍看之下好像
比pathologists辨识的结果好(k=0.55~0.59 among all pathologists under study),
但其实这有点是鸡蛋比苹果。如果大家已经忘了AUC(area under the curve)在做什么,
那只要记得一件事就好了,就是中央的那条斜对角线代表的是50%面积的分隔线,也是丢铜
板也应该猜中一半的地方,所以你的方法只要低于这条线就是废物,也就是比丢铜板猜中
的机率还低。
所以AUC=0.5是门槛,那么一般的rule of thumb是AUC=0.6~0.7是表现极差的、0.7~0.8是
还可以,要在0.8以上才可以叫不错。另外,由于各种方法多半都是在sensitivity与
specificity之间有个trade-off,也就是当你的方法越sensitive时,越可能产生false
positives。在AUC的图里面,Y轴是sensitivity、X轴是false positive rate,所以虽然
算的都是底下的面积(area under the curve),其实是越靠近左上角越好。但是在
Figure 2(b)里可以看到有一些方法的sensitivity有到1,可是false positive rate却高
达55%以上,那这种的其实也没什么用处。
他们贡献比较大的部份应该是从跑这堆classifiers的过程中找出一些足供辨识的
features,可以拿来预测prognosis/survival。Figure 3(c)是他们用training data
(TCGA)找出的features做的adenocarcinoma病患的survival curves,这部份的确分得
还不错,但是拿去用在testing data(TMA)时,Figure 3(d)其实只有在50个月以后这两
条survival curves才分得开。这在squamous carcinoma也有差不多的情况,但squamous
carcinoma是在training data的部份就分得更不好了。在临床上,难道要叫医生跟病人说
“如果你可以活过四年,我就可以告诉你你大概可以再活多久”?
我想如果电脑可以辅助看片,应该可以减轻医生的工作量,所以我猜pathologists应该是
乐见其成吧。但是要把电脑训练到跟人脑差不多聪明(这个是一次只辨识两种肿瘤喔,两
种以上又更复杂了),应该还需要一段时间吧。
小弟看这篇文章只是匆匆浏览,如有错误还请指正。