SPSS案例实践:分类自变量做哑变量处理后做线性回归

原创 数据小兵  2021-03-12 09:17  阅读 559 次
数据小兵成长记

SPSS做线性回归,如果遇到分类的自变量,你会怎么办呢?是直接按照连续数据纳入模型还是对其做哑变量处理后再纳入回归模型?

我经常看到的做法是直接按连续的纳入回归,包括我自己也是喜欢这么做,很方面嘛,用习惯了感觉就是这么回事,没啥问题。

但是。从线性回归的要求来看,自变量如果是分类变量类型,应当采用哑变量形式,按 “同进同出” 原则进行回归分析。

SPSS用户习惯于把分类自变量按连续的进行回归,跟SPSS软件线性回归菜单对话框中没有默认设置哑变量处理选项有一定关系,甚至说软件就是 “不良操作” 的 “罪魁祸首” 。

那大家看下面这篇文章,在R语言中,线性回归函数lm()是默认将分类自变量做哑变量处理才进行回归分析的。

练习R:分类自变量的线性回归
(记得回来本文啊)

01

案例与分析目的

我们用雇员数据吧。

分析目的:

考察职位类型与初始薪金对当前薪金的影响,其中职位类型是分类变量,有3个分类水平,1代表普通职员,2代表保管员,3代表经理。

02

分类变量生成哑变量

那前面有说一句,就是SPSS线性回归菜单里面没有哑变量设置的参数选项,所以我们需要自己提前将分类变量转换成一组哑变量。

分类变量如何创建或生成哑变量呢?大家看下面这篇文章:

用SPSS创建虚拟变量/哑变量

(记得回来本文啊)

我这里就快速出结果了。如下:

03

SPSS线性回归

现在有两批因素要考虑,一是“初始薪金”,二是哑变量jobcat2和jobcat3。注意啊,我这里说的是 “批” 不是 “个” ,因为同一个变量的一组哑变量做线性回归要求“同进同出”,不能把jobcat2和jobcat3拆散了。

这里主要演示分类自变量的回归,其他参数就不多余讨论了,按软件默认设置,然后我们直接输出结果。

04

回归结果解读

不说废话。直接看回归系数表格。

“起始薪金” 对 “当前薪金” 的影响有统计学意义(P<0.01)。

与 “普通职员” 相比,“保管员”这个职位类别对 “当前薪金” 的影响无统计学意义(P=0.247>0.05);与 “普通职员” 相比,“经理” 这个职位类别对 “当前薪金” 的影响有统计学意义(P<0.01)。

通俗理解一下,如果你是 “经理” ,那么与 “普通职工” 相比,你的薪金瞬间高出13531美元,哇塞!还是要升职才能加薪啊。

好了小兵今天就分享到这里,欢迎读者持续关注我的这个公众号,更多案例持续看。

文完
文/图=数据小兵

如果你在使用SPSS做统计分析时遇到了疑问,想找个人咨询,找谁呢?小兵我自告奋勇啊,欢迎有意者加入我的统计分析类视频课程。

永久有效可反复播放,有问题及时和小兵微信一对一咨询、讨论、解决。

本文地址:http://www.datasoldier.net/archives/2865
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
视频课程《SPSS统计分析:从入门到实践提高》
欢迎订阅SPSS训练营微信公众号

评论已关闭!