Re: [问题] 离群值

楼主: breakheart (畜)   2016-01-02 22:34:58
1. < Q1-N*(Q3-Q1) or > Q3+N*(Q3-Q1) <= 出于常态分配特性exclude outlier
其中N看你对Outlier的容忍度, 容忍小=>N小, 容忍大=>N大
但你会发现用这去exclude outlier似乎并不是所有点都能适当的被移除掉
有其当资料分配是偏态分布情况下,
这是因为前面说过这是假设资料是在常态分布下的移除ourlier,
对钟型分布(对称分布内高外低)也许会比较好,但其他就会非常差,
2. 为了改善 1. 的缺点,有些人会采取下面作法
分配右半部right sigma = (P95-P50)/( qnorm(0.95) -qnorm(0.5) )
(当点数少时,0.95会改成0.85 or 0.75)
> median - N*right sigma => outlier
分配左半部sigma = (P50-P05)/( qnorm(0.50) -qnorm(0.05) )
(当点数少时,0.05会改成0.15 or 0.25)
< median - N*right sigma => outlier
各位发现了吗,上述做法其实是将分配假设是钟型分布,
以钟的两端以常态方式推估sigma,再利用计算outlier
此法可能比1.好一些,但仍无法适用非钟型分布(ex:双峰 or Uniform...etc)
对一些偏态很严重的钟型分布也无法很好的套用
3. 在国外这是可以专章讨论的一个好论文,他们第一步会先将资料分配类型先求出,
再依据各分配的特性予以合理的exclude outlier方法,
不会用一个方法公式去套用所有情况,这是最合理效果最好但也是最麻烦的,
那有人会说用什么方去求出分配,之后再用什么方法根据各分配exclude outlier
这太多资料了.....,各家有各家的法宝,就不赘述了
你会在R发现一些package跟Outlier相关的,
但请切记,他们多半都是Base on是某种分配去exclude outlier的
Outlier这是一个好问题,我其实很想知道其他高手对此的见解来讨论看看
板上其实很注重在Coding,但应用就很少谈了,也许这是个好话题
※ 引述《sky84911 (Chun)》之铭言:
: 请问一下该怎么用R找出离群值,
: 我可以产生出box plot,可是无法确认离群值是哪一点
: 谢谢

Links booklink

Contact Us: admin [ a t ] ucptt.com