首页 > 试题广场 >

异常值是指什么?请列举1种识别连续型变量异常值的方法?

[问答题]
异常值是指什么?请列举1种识别连续型变量异常值的方法?
推荐
异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。
编辑于 2015-02-04 19:44:21 回复(0)
Grubbs' Test方法流程:
1.假设样本来自于正态分布总体;
2.提出假设:原假设:数据集中无异常值;
            备择假设:数据集中至少有一个异常值;  3.Grubbs’ Test双尾检测统计量为G = (■(max@i=1,2…N)|Yi-Y ̅ |)/s,Yba为样本均值,s为样本标准差 4.显著性水平为α的情况下,当G >( N-1)/N √((t_(α/2N)^2 (N-2))/(N-2+t_(α/2N)^2 (N-2))) 时,可拒绝原假设,接受备择假设。即有数据集中有异常值。 其中t_(α/2N)^2 (N-2)表示自由度为N-2,显著性水平为(α/2N)的t分布值的平方。  
同时,箱线图也可用来识别异常值。高出高四分位数1.5个IQR的值或者低出低四分位数1.5个IQR的值是异常值(奇异值)。



编辑于 2016-09-14 10:18:47 回复(0)