线性回归中的异常值:离群点+高杠杆点+强影响点

原创 数据小兵  2021-01-15 19:48  阅读 1,017 次
数据小兵成长记

在一个回归模型中,异常值点包括离群点,高杠杆值点和强影响点,这些点都可能对结果产生较大的负面影响,因此对异常值点的判断及修正对建立正确的回归模型非常重要。

1.离群点

离群点通常指残差非常大的点,模型预测的y值与真实的y值相差非常大。通常检测离群点的方法有:

法一:用QQ图检测,落在置信区间外的点通常被认为是离群点;

法二:通常认为标准化残差的绝对值大于2的点可能是离群点,也有资料说是大于3,可视情况而定;

对离群点,我们一般会选择删除(谨慎些更好),删除离群点还有利于提高数据集对于正态分布假设的拟合度。

狭义理解:因变量y的值是极端值的观测值。

2.高杠杆值点

高杠杆值点指的是x值比较异常,通常与响应变量值y没有关系。

判断高杠杆值点的方法,是计算点的帽子统计量,若该点的帽子统计量大于帽子统计量的均值的2或3倍,通常被认为是高杠杆值点。

狭义理解:自变量x的值是极端值的观测值

3.强影响点

对模型有较大影响的点,如果删除该点能改变拟合回归方程。

高杠杆值点,若是离群点,则是强影响点。当然强影响点也不局限于此,强影响点是指对统计推断有影响的点,一般用cook距离进行判断,若cook距离的值大于4/(n-k-1),则表明是强影响点。

Cook距离直接总结了去除某一个数据点之后,其他样本拟合值的变化,相当于综合了残差和杠杆值的信息。

最后提R语言一个influenceplot()函数(car包中有),可以把离群点,高杠杆值点,影响点都整合在一个图上,影响图横坐标为帽子值,纵坐标为学生化残差,因此纵坐标超过+2或者-2的点被认为是离群点,横坐标可以判断哪些点是高杠杆值点,图中越往右上角的点,越有可能是强影响点。

本文完

由数据小兵综合整理自网络,仅供很公众号读者交流学习,如有侵权,请及时告知删除。

 

更多JASP统计文章

一款全新的统计软件:JASP

JASP 0.12 新版本发布

JASP可读取3种外部数据文件
JASP连续数据之相关分析

JASP分类数据之相关分析

用JASP统计软件做单样本t检验

用JASP统计软件做配对样本t检验

JASP计算cohen's d效应量指标
JASP可视化建模:简单一元线性回归
logistic回归分析多重共线性检验

JASP统计分析案例:单因素方差分析

JASP做四格表卡方检验
JASP 0.13 新版发布

惊艳!JASP相关系数矩阵及热力图
用散点图判断变量间线性关系
JASP统计Durbin-Watson检验的显著性P值

本文地址:http://www.datasoldier.net/archives/2775
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
视频课程《SPSS统计分析:从入门到实践提高》
欢迎订阅SPSS训练营微信公众号

评论已关闭!