关于多重线性回归的若干问题

原创 数据小兵  2019-12-12 17:33  阅读 2,146 次
视频课程《SPSS统计分析:从入门到实践提高》

转自:统计联盟微信公号

相信对于多重线性回归这种方法大家并不陌生,但是大家在使用中一定会有很多问题,那么本期小编就将平时大家疑惑多的问题进行集合,统一解答给大家,希望对大家有所帮助!

1多重线性回归与多元线性回归傻傻分不清?

这个问题好多学统计的同学在刚开始也会犯错误,这里主要是对多元和多重的理解上有问题,“重”实质上指代的是多因素,即自变量个数,所以多重线性回归实际上指因变量为一个、自变量为多个的线性回归分析。“元”指代的是分析变量个数,常见的多元分析有单因素设计多元定量资料差异性分析,指代的一个自变量因素与多个相关的因变量之间的差异性分析。但是在现在的教材课本上多元线性回归与多重线性回归实际上同一概念,均分析一个应变量与多个自变量之间的的线性关系,只不过版本不同叫法不同,小编建议大家还是记多重线性回归比较好,以便于前面的分类系统统一。

2多重线性回归自变量只能是计量资料吗?

这个问题,已经有不少同学问我了,多重线性回归要求因变量Y的取值是一个近似服从正态分布的连续性随机变量,自变量是一系列互相独立的定量变量或定性变量。因此自变量是可以为定性变量(即分类资料如性别),但因变量Y是服从正态分布的连续性随机变量。

3自变量为定性变量可直接带入方程吗?

这个问题是大家疑惑的,不少朋友担心,分类变量带入方程,结果该怎样解释!这里给大家做详细解释,定性资料大致分为以下几种情况,二分类、多分类、有序分类。对于二分类资料可直接带入方程(如性别男定义为1,女定义为0),那么在方程中的回归系数就表示男与女相比的情况。多分类时,我们需要做哑变量处理,四分类可得到3个哑变量,因为会选定一个作为参照组,结果解释时各哑变量的结果表示与参照组比较的结果。有序分类时,可先将变量做计量资料带入模型,判断是否存在线性关系,若不存在线性关系再做哑变量处理,解释时同上。

4如何设置哑变量?

这里我们举例说明,我们以A、B、AB、O四种血型四分类变量做哑变量处理(哑变量的个数为分类变量的水平数减一),设置如下表,代入模型时直接代入X1、X2、X3即可。

5自变量筛选的方法是不是逐步法最好呢?

这个是小编本科前经常犯的错误,在深度学习后发现每种方法都有它的弊端,以前认为逐步法是前进法跟后退法的结合,那自然以为它是做好的,其实不然,在逐步法中,当有P个自变量入选后,选第p+1个自变量时,对它来说前P个自变量的组合不一定是最优组合。对于每种方法我就不一一展开了,没有绝对的好方法,一般来说,逐步回归法和最优回归子集法较好,那么对于给定的资料而言,最保险的就是尝试多种变量筛选方法,从中选择最优模型。

6如何判定多重线性回归模型的优劣呢?

这个问题是个比较复杂的问题,小编参考了教材。最终归纳如下,较优模型满足标准:

(1)拟合的多重线性回归方程在整体上有统计学意义

(2) 多重回归方程中各参数估计值假设检验结果有统计学意义

(3) 多重回归方程中各回归参数的正负号与专业上的含义相符合

(4)根据多重回归方程计算出因变量所有预测值在专业上有意义

(5)若有多个较好的多重回归方程时,残差平方和较小且多重回归方程中所含的自变量个数又较少者为最佳

(6)从实际角度来看,自变量取值越容易越好

7多重共线性是什么鬼,该怎么判断?

多重共线性大家在做回归时可能听说过,但大家多数却选择跳过。所谓多重共线性是指一些自变量之间存在较强的线性关系,不满足多重线性回归中自变量相互独立的要求。会引起方程的不稳定,增加或减少某几个观察值,估计值可能发生很大的变化。也可能造成估计值的正负符合与客观实际不一致的情况。那么如何判定共线性呢,主要通过以下方法:a.用条件数(K)和方差分量进行共线性诊断(此步骤可在SAS中操作)K>=0且K<10,则认为没有多重共线性,若K>=10且K<=30,存在中度多重共线性,若K>30存在严重的多重共线性。b.利用方差膨胀因子(VIF)进行共线性诊断,但目前尚无标准的临界值,有人根据经验,当VIF>10时,就有严重的多重共线性存在。

8多重共线性怎么处理?

多重共线性的处理比较复杂,通常有以下方法:a.精简变量法:简单粗暴的方法在自变量中剔除造成共线性的自变量,重新建立回归方程;b.逐步回归判别法:用逐步回归建立回归方程,包含的自变量间不存在多重共线性(请教老师说不准确);C.主成分回归法:利用主成分分析将存在共线性的自变量合成主成分变量,再与应变量建立回归方程,由于主成分之间互不相关,因此可以避免多重共线性问题。此外还有一些复杂方法如岭回归、偏最小二乘法、特征根法等。

9异常值如何诊断?

若个别观测点于多数观测点偏离很远,它们可能会对回归的估计以及其他推断产生很大影响,这种点称之为异常点。在SAS里有两种简单方法方便检测:a.利用学生化残差统计量,当该统计量的绝对值大于2时,所对应的观测值可能是异常点;b.利用残差图进行异常值诊断,在残差图中,如果各散点随机均匀散布在直线y=0的上下两侧,说明资料满足假设,若有特别趋势,则需要考虑因变量与自变量之间的关系可能是非线性、方差不齐等情况。

10发现异常值该如何处理?

若发现异常值,此时需要认真核对原始数据,若属于抄写或输入人为错误,应当纠正;若非人为过失所导致,需要做敏感性分析,即将该异常点剔除前后各做一个最好的回归方程,并对最终的结果做比较分析。若不一致,进一步探究原因,最好在此点上补做试验,以便进一步确认。

本文地址:http://www.datasoldier.net/archives/1668
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
SPSS在线视频学习
欢迎订阅SPSS训练营微信公众号

评论已关闭!