SPSS统计图形:箱线图观察异常值的注意事项

原创 数据小兵  2021-07-02 12:23  阅读 1,200 次
数据小兵成长记

小兵对待统计图形的看法是,统计图形是用来辅助观察、判断统计分析结果结论的工具。虽不能完全彻底依托图形定论,但也绝不可忽视图形法的作用。

比如今天要分享的这个箱线图,在异常值观察判断方面应用比较广泛,很多人都喜欢拿箱图来看数据有没有异常值。

这里有几个注意事项要谈一谈小兵的看法:

01

建议是大样本数据

大样本数据集通过箱图观察判断异常值,其准确性合理性高于小样本数据。因为如果是样本量很小,比如几个、十几个数据,箱图可能就很迟钝了,不会提示有异常。或者因为数据波动较大,总是提示异常,但实际上有些数据是正常值,只不过是稍微大了一些或小了一些而已。

这种大或小在业务环境中算不得什么。

02

不说最大值最小值

关于箱图的解读,尤其是对箱体(IQR)外两侧的横须线,两个须线有人会随意说成是该组数据中的最大值或最小值,它最小最大了,那么且问须线再往外侧的*号点小圆点○数据又是什么?

须线是我们制作箱线图所需要的一个虚拟的位置线,它的位置是Q1-1.5倍IQR或Q3+1.5倍IQR,且把它称之为须线位置刻度或界值。所谓界值,过界的就是统计上的异常值。

03

箱图异常和专业异常

过界后的数据点SPSS软件会自动标注小圆圈○或星星*符号,一般认为小圆圈点代表温和异常值(Q1-1.5倍IQR或Q3+1.5倍IQR外侧),即轻度异常,而星星点表示极端异常值(在Q1-3倍IQR或Q3+3倍IQR外侧),异常程度更甚。

注意,此时的异常是属于统计上的,依据箱图制作原理(百分位数)所得的异常判断。箱图提示的异常值到底是不是业务上的异常状况,到底是不是专业上的异常,还请大家根据专业视角来做最终的解释和认定。

如果专业上解释的通,逻辑上行得通,可以判定为异常并作出处理。

04

异常值的删除

课程的一些读者遇到了有趣的事情,他们用箱图发现了数据的异常,然后专业上不做判断就直接开始删除剔除,结果是什么,怎么剔除都剔不完,踢了一批还有下一批。没完没了。

我用一句歌词来总结:喝完这一杯还有三杯。

前面第3条刚总结了,这是箱图提示的异常,不一定是专业上能接受的异常,你删了一批,再重新做箱图,还有下一批异常提示。删的完么?删不完,直到你把数据都删完了。

喝酒有度,我3瓶的酒量,ok,喝过3瓶,谁给我递下一杯酒打死我也不喝了。可以吧,是不是好理解了。这就是专业上认为没有异常,有度的,你认为刚刚好就停止了。

05

还有其他方法

箱图不是唯一检查异常值的方法。

判断异常值的方法有不少,箱图肯定不是唯一的方法。或者说不同的方法可能有自己的适用性,每个方法都有自己的缺点。

比如还有Z分数法、绝对中位差法等。

本文完

文/图=数据小兵

本文地址:http://www.datasoldier.net/archives/3109
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
视频课程《SPSS统计分析:从入门到实践提高》
欢迎订阅SPSS训练营微信公众号

评论已关闭!