今天重新认识一下峰度系数(以下简称bk),以前没有深究,只知道大于0是尖峰,小于0是低峰,正态分布的峰度是等于0的。
现在用SPSS软件生成一组服从标准正态分布的随机数,绘制带正态曲线的直方图,结果如下:
平均值0.030,标准差0.965,峰度系数(kurtosis)bk=-0.057。
百度百科上说,正态分布的峰度系数是常数3,均匀分布的峰度系数为常数1.8。以正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk<3,则称分布具有不足的峰度(较扁平的低峰),若bk>3,则称分布具有过度的峰度(较陡峭的尖峰)。
按照峰度系数定义,其取值不会低于1,上限不会高于数据的个数。
这就奇怪了,SPSS峰度系数为什么还会有负数呢,而且是以0为判断标准,而不是以常数3为判断标准呢?
好,这里有个新的概念我们要认识一下。它叫做超峰度,简称ek。原始的峰度系数kurtosis减去常数3,得到超峰度系数ek,此时ek的取值范围就包括了负数。
而我们常用的SPSS统计软件,它描述统计默认计算的恰好就是这个超峰度ek,所以,SPSS描述统计中峰度系数kurtosis的取值可以是负数,并不奇怪。
判断标准则转变为,正态分布ek=0,而未知分布的ek<0时为较为扁平的低峰,ek>0时为较为陡峭的尖峰。
把刚才生成的正态分布数据放到Excel里面,用函数KURT()计算峰度系数,其值为-0.05692,四舍五入后和SPSS是相符的。
好了,现在我们已经搞清楚了。在SPSS和Excel中计算的峰度系数都是超峰度系数ek,ek>0表示为较为陡峭的尖峰形态,ek<0时为较为扁平的低峰形态,ek=0为近似正态分布。
全文完
文=数据小兵
评论已关闭!