线性回归中Stepwise、Forward、Backward等5种自变量筛选方法如何选择?

原创 数据小兵  2020-04-03 11:08  阅读 15,333 次
数据小兵成长记

SPSS线性回归提供5种自变量筛选的回归方法,包括Enter、StepwiseForward、Backward还有Remove。

偏重于统计方法应用的人可能觉得这没啥,它多任它多,我自选择stepwise。可是对于新手以及较真的人来说,这里就会很头痛,5个方法我到底选哪一个?它们到底有啥区别?

还记得小兵分享的小技巧吗?《不认识参数选项,不知道每个选项是干什么的,毫不犹豫马上点击【帮助】按钮》,哪里不懂就马上在该菜单对话框上点击【帮助】按钮。

看看官方文档如何简要概况这种方法吧。

官方对5种方法的介绍如上。中文翻译的有些蹩脚,总体上概况了5种方法各自的含义,如果想再深入一步了解,这个说明性的文字还是不够的。

我先把5种方法做个分类,如下:

【果断处置】和【小心翼翼】两大类,这是不是会好理解一些呢。

(1)果断处置之Enter法

Enter法即强制输入法。

不管三七二十一,只要是我想要考察的自变量,不管它对因变量Y的贡献如何,不论它在模型中F检验显著性概率P值是大是小,强制参与建模,软件会为它计算偏回归系数并作出一系列检验。

这么说归说,但是实际应用中,并不真的如此果断去做。

小兵建议研究者可根据专业知识筛选对因变量有影响的自变量,以及参考前人研究文献经验来筛选一批自变量。假设有100个自变量,难道我们还真的把100个自变量都放入模型中吗?不太可能。

另外我们一般做线性回归前,还会数据做预处理,比如相关性分析,散点图等,这些方法也可以在回归前对自变量做出一些有效的筛选。

Enter法是SPSS软件默认的方法,在简单一元线性回归中,只能选择这个方法,在多重线线性回归中,可根据数据情况决定是否选择。

(2)果断处置之Remove法

Remove法即强制除去法。

该法和前面的Enter正好相反,强制让一些指定的自变量不参与回归拟合,不管具体原因。但是SPSS给用户们一味后悔药,软件会帮这些自变量输出一些参数,假设让这些自变量进入模型,它对因变量的影响具体表现如何,供使用者参考是不是要反悔。

这里的Remove和我们用户直接把某些自变量删除是完全不同的,我们使用者主观删除就真的给某些自变量直接“死刑”了,但是这Remove法实际上是“死缓”执行。

果断归果断,但还是有点原则的,不是一棍子打死。

与【果断处理】对应的是,【小心翼翼】的三种方法,Forward、Backward、Stepwise

(3)小心翼翼之Forward法

Forward法即向前选择法。

假设k个自变量与因变量间的线性关系,所有自变量首先按相关性或重要性排序,谁是老大谁先进入模型。然后现有一个X的模型与剩余的n-1个自变量再开始研究一下相关性或重要性排序问题,谁是这次的老大谁进入模型。

每次引入一个自变量都要进行显著性检验,只有显著的自变量才能参与这个“老大之争”,以此递推,反复执行该过程,直至没有自变量可以被纳入。

可见Forward法构建的线性回归模型,它的自变量是从无到有,逐个纳入进来的。

这里提到所有自变量按重要性排序的问题,依据是什么呢,它叫做偏回归平方和。每次引入新的自变量,都要计算模型偏回归平方和的变化大小(贡献多少的变化),以及要做F检验对应自变量的显著性(比如P<0.05)。

Forward法的有一个问题,每加入一个新自变量,可能会使此前已存在于模型中的自变量单独对因变量的解释能力减小,甚至降低到不显著的水平(无统计意义),但是Forward法没有剔除机制,这样的自变量最终可能会被保留下来。

好,我们小心眼一下,先记住Forward法的这个小毛病。

(4)小心翼翼之Backward法

Backward法即向后选择法。

向前向后,看名字就知道和Forward法是相反的。Backward法先拟合一个包含全部自变量的回归模型,一下就有了一个全模型,不是从无到有。一下吃了这么多觉得有点不妥,想再吐出来,怎么吐?

估算所有n个自变量的显著性结果,然后排序,将其中检验概率值最大者首先剔出模型(P大于0.1)。然后再来计算n-1个自变量的回归模型,仍然排序,谁最不显著就踢谁,如果所有的自变量均有统计学意义,则运算过程终止。

反复多次执行计算和比对检验,直到模型中剩余的所有自变量均有统计学意义为止。

对于Backward法来说,当自变量数目较多或者自变量间高度相关时,可能得不出正确的结论。也有些美中不足。

Forward法和Backward法,从自变量的筛选标准上让人眼前一亮,但是呢两个方法都有些美中不足。实际应用中的需求在召唤一种更稳妥的筛选自变量进行回归拟合建模的方法的出现。

它就是stepwise法。

(5)小心翼翼之Stepwise法

Stepwise法即逐步法。

它介于Forward法和Backward法之间,是两个方法的结合,兼顾两个方法的优点,又弥补两个方法的不足。

Stepwise法不再是一味地引入新的自变量,而是每增加一个后,马上考察一下上一个进入模型的自变量在模型中还是不是依旧显著,如果发生变化,那么将别被剔除出模型(P大于0.1标准),最终创建的模型是一个最优的自变量组合。

【小心翼翼】的三个方法中,Stepwise法无疑是稳妥型的,是多重线性回归中筛选自变量最常见的方法。

SPSS线性回归对话框的【选项】参数里面,就配置了以上三种方法的关键参数。大家看这个对话框:

你看到了什么?这里规定了Forward、Backward、Stepwise纳入自变量和剔除自变量的参考标准,纳入自变量的显著性概率P值为小于0.05,剔除自变量的概率P值为大于0.1,注意进入的标准必须小于除去的标准。

我们点对话框底部的【帮助】按钮,打开相应的官方文档,文档中说:

这两个参数小兵建议不用乱动了,软件默认设定的已经是极好的组合了。一般情况下,或者说大多数场景下,我们完全不需要为这两个参数操心,这是统计学家的事情。

而我们,只是统计软件工具的使用者,我们是用户。

统计用户应该做的事情无外乎以下:

1.科学设计研究方法
2.准确获取研究数据
3.选择恰当的统计方法
4.准确解读统计结果

小结

这5种筛选自变量的方法如何选择呢?想必你也有了一些倾向。如果是只有一个自变量的简单一元线性回归,毫无疑问,直接选Enter法。如果是有许多自变量,也就是多重线性回归时,建议选择更为稳妥的Stepwise逐步法。

全文完

图/文=数据小兵

好文推荐阅读

 

本文地址:http://www.datasoldier.net/archives/2008
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
视频课程《SPSS统计分析:从入门到实践提高》
欢迎订阅SPSS训练营微信公众号

评论已关闭!