线性回归时要求残差方差齐次,通俗理解为所有的观测数据在计算过程中具有相同的贡献。但是实践中有时候会出现残差方差不齐的情况,此时普通最小二乘法不再适用。
通常来说,此类情况可以使用加权的最二乘法(WLS)拟合线性回归模型。WLS会降低具有较大方差的观测数据对分析过程的影响。
案例背景介绍
现在我想用历史数据来预测一个新商业街的成本,解释变量包括面积、商业街种类(室内、户外)、建筑师从业年数。
先测试普通线性回归拟合的残差表现,以成本为因变量,以面积、商业街种类、建筑师从业年数为自变量做线性回归,我们输出一个残差散点图,如下:
观察发现,残差有逐渐放大的趋势,初步判断残差方差不齐。图形法是最为简便的办法,推荐大家常用。
现在结论是线性回归不适用了,残差的方差不齐,怎么办?小兵来测试使用加权的回归分析。
首先估算权重
加权加权,那我们首先得有权重才行。这个权重可不是随便指定一个,它应当是随着观察数据的变异和变化的。
SPSS提供了【估算权重】的专用菜单,需要用户指定一个与因变量相关的连续数据变量作为权重计算的基础。
在SPSS顶部菜单栏打开【分析】→【回归】→【权重估算】对话框。
(1)以成本为因变量,以面积、商业街种类、建筑师从业年数为自变量;
(2)根据专业知识,本例选择面积自变量来估计权重,权重为1/权重变量k次方;
(3)命令SPSS帮我们寻找最佳的幂k,本例为快速确认幂k,从[3,5]间以0.1为步长进行寻优;
(4)【选项】按钮打开,勾选【将最佳权重保存为新变量】;
SPSS执行后我们来看结果:
幂k从3开始,3.1到3.2,依次递进到5,每次都计算一个对数似然值(不用管它原理),注意标准哦:对数似然值取最大时对应指数就是我们要确认的最佳幂k。显然本例k取3.5时,对数似然值最大。
因此k=3.5,权重为1/面积变量的3.5次方。这些我们不用自己计算了,SPSS已经帮我们计算并另存为一个新变量。
在SPSS的数据视图下,我们会看到新增了一个变量,名称为【WGT_1】这就是我们未来加权的权重数据了。
阿弥陀佛,终于有权重数据了。
开始加权回归WLS
SPSS菜单栏【分析】→【回归】→【线性】。
(1)以成本为因变量,以面积、商业街种类、建筑师从业年数为自变量;
(2)以新增的WGT_1为权重变量;
(3)点开【保存】对话框,保存未标准化后的预测值和残差;
执行加权的线性回归,来看结果:
前面方差分析结果显示加权回归模型有统计学意义(P小于0.01),调整后的R方72.4%,加权的回归模型解释能力尚可,具体表格结果此处略。
直接看回归系数表格。各自变量具有统计学意义。写出加权的回归拟合方程如下:
Y=53.44+149.3*面积-26.5*商业街种类-2.2*建筑师从业年数
强调一下,加权回归过程呢不会自动帮我们输出残差图,这需要用户自行来转换数据并自行作图。这一操作略微麻烦一些,不过读者们千万不要畏难。
加权回归输出的未标准化残差和预测值,还需要经过转换后方可用于残差图的制作。因此我们需要利用SPSS的【计算变量】功能来转换回去。目标是生存两个新的预测值和残差,转换的方法是他们本身乘以加权变量的开平方。
Ok,现在做加权回归的残差图。
和未加权回归残差相比,加权处理后残差散点围绕在ei=0这条直线的上下两侧均匀分布,无明显规律性变化,说明此处残差的方差基本能满足齐次的要求,加权处理起到改善模型的效果。
本文完
文/图=数据小兵
小兵推荐阅读
数据小兵坚持写博客已经16年
坚持写微信公号文章10年
坚持更新SPSS视频课程6年
坚持一对一答疑讨论6年
欢迎加入SPSS视频课程
竭诚服务