我对方差分析原理的通俗理解,请指正

原创 数据小兵  2020-03-04 10:28  阅读 1,495 次
视频课程《SPSS统计分析:从入门到实践提高》

现在用电子体温计测量体温,对着额头滴一声,36.8℃,就这么简单。可是你非要问我这个电子体温计的原理是啥,我真想拿把锤子锤你。

我一直认为,非统计研究的人不要纠缠统计方法的计算过程,你就把它当做一个黑匣子,知道如何规范地使用它,能读得懂它输出的结果就行了。

比方说,方差分析中我们只要知道F统计量如何构造,P值如何解读这就可以满足大多数用户需要了,F统计量和P值的具体计算过程就交给统计软件来完成。

案例介绍及简要分析

最近一年消费者对总共23家企业投诉的次数如下表,试分析四个行业之间的服务质量是否有显著差异。

简单分析一下,受到投诉的次数越多,说明服务的质量也就越差,四个行业间服务质量是否有显著差异,那么就是要检验四个行业的投诉量有无差异,这个差异有无统计学意义。

本质上,我们要做的是考察“行业”对“投诉次数”是否有显著影响,行业是有4个分类水平的分类数据,投诉次数则是一个连续数值数据,从分析目标和数据类型上看,应该采取ANOVA单因素方差分析

方差分析表

我们抛开方差分析基本条件,直接来讨论方差分析的主结果:方差分析表。

方差分析用的是F检验,我们需要构造出F统计量,我们现在利用行业投诉次数的这个案例数据,简要的描述一下。

总方差SST

要想研究不同行业间投诉次数的差异,我们首先要考察数据变化的来源——误差。为什么不同行业的投诉量在变化,而不是相同的数字?这里面有误差存在。

四个行业一共收集到23家企业的投诉数据,也就是收集到23个数据,23个数据各有不同,它们总的变化量可以称之为总方差SST,计算的时候用统计术语离差平方和表示,公式如下:

(两眼瞎是吧)好,我们就当不认识它,统计软件知道怎么计算就行。

组内误差SSE

统计学家又想到一个问题,每个行业有几十家、甚至几千家的企业,比如航空业我才抽取了5家企业的投诉次数,这有抽样带来的随机误差SSE,好我们用公式来计算随机误差SSE。公式如下:

(还是看不懂)每个行业都要算一个随机误差,再加起来。好,我很懒,懒得算它,扔给统计软件吧,不管了。

组间误差SSA

在不同行业间,各投诉数据也是不同的(我们称之为组间误差SSA),这种差异可能是由于抽样随机误差造成的,也有可能是由于行业本身造成的,与随机误差相比,我们更关心不同行业间的差异,我们命令其为系统误差,你可以理解为它是由影响因素导致的差异和变化。

组间误差SSA也有计算公式,如下:

(不好意思我没学过数学)好复杂,继续当做没看见。此时我们再次要求统计软件帮我们计算。

F统计量

显然,SSE只包含随机误差,而SSA既包括随机误差,也包括系统误差。如果不同行业对投诉次数没有影响(假设系统误差为零),那么组间误差也只包括随机误差。相除是不是就接近1吧。

反之如果不同行业对投诉次数有影响,那么组间误差一定大于组内误差,它们两个相除的结果一定大于1,这个比值大到一定程度,就可以说明因素对差异有显著影响。

统计学家没有直接用SSA除以SSE来构造F,为消除个案数目的影响,引进自由度的概念,用平方和除以自由度得到均方,具体过程为:

SSA/(k-1)=MSA
SSE/(n-k)=MSE

而F=MSA/MSE。

有的人说那自由度咋回事呢?

k为因素水平的个数
n为总样本数

在本例中k=4(4个行业),n=23(总抽取了23家企业)。

至此我们已经构造出F统计量,只要计算出三个平方和SSA、SSE和SST,就能得到F。

P值

以前没有统计软件的时候,大家是查表来找到显著性水平0.05时对应的F临界值,看我们计算所得到的F是不是大于F(0.05)。

这是以前啊,传统的做法。现在是什么年代了,计算机IT时代,大数据云计算时代,我们还查表吗?早都扔掉了。哪家高校老师还让学生们查表而不是学统计工具的,那真的应该提醒一下,紧跟时代,提高效率。

大家想啊,我们的上一辈人学打算盘,现在小学都用计算器,统计人还查表?除非你是专业搞这个的。

现在我们看方差分析的结果,就直接看P值吧,不要看F统计量大小去查表。而且大家不要纠结了,P值让统计软件根据F分布概率密度函数去算吧,我们手工算不来的。

P<0.05,则拒绝原假设(四个行业投诉量相等,系统误差为零),接受备择假设,认为不同行业投诉次数有统计学差异。行业对投诉次数有显著影响。

P>0.05,则因素对因变量的影响无统计学差异。

统计软件的结果

本例我们采用SPSS统计软件帮我们完成以上提到的各统计量的计算,所得方差分析表如下:

统计结论我们一般用F(组间自由度,组内自由度)=?,P值=?来给出。比如本例:

方差分析结果表明,F(3,19)=3.407,P=0.039<0.05,认为不同行业对投诉次数的影响有统计学差异。

全文完

文/部分图=数据小兵
公式图片=百度百科

参考资料:袁卫 等著《统计学》第四版

本文地址:http://www.datasoldier.net/archives/1848
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
SPSS在线视频学习
欢迎订阅SPSS训练营微信公众号

评论已关闭!