刻意练习18:用SPSS创建虚拟变量/哑变量

原创 数据小兵  2019-10-10 09:43  阅读 10,381 次
视频课程《SPSS统计分析:从入门到实践提高》

SPSS【转换】菜单下的【创建虚变量】功能,可以将分类变量转换为虚拟变量,在线性回归中如果遇到无序分类变量的自变量,此时这个菜单就可以派上用场了,可以帮助用户快速完成哑变量处理。

举个例子。

血型分为A、B、AB、O型,4种血型是平行的。如果我们在SPSS中录入一个血型的变量,为了参与后续的统计分析,通常是用数字1、2、3、4来编码,此时对于SPSS软件来说,1、2、3、4就是一个等间距的数字,这显然不符合血型的实际状况,因此需要进行哑变量的转换。

从概念上,一个有n水平的分类变量,需要选定一个属性作为参照,最终生成n-1个哑变量。而在SPSS的【创建虚变量】菜单中,它会自动生成n个虚变量,所以需要我们手动删去选定参照的一个。

【创建虚变量】主对话框:

来看SPSS默认的虚拟变量结果:

血型作为一个无序分类变量,有4个水平,n=4,SPSS会默认生成4个虚拟变量。这时候要注意,这是没有设定参照的虚拟变量,而在哑变量的应用中,一个n水平的分类变量,需选定一个分类水平作为参照,生成n-1个哑变量。

所以,接下来我们需要选定一个水平作为参照,选谁呢?一般情况可以选择数字编码的第一个或最后一个,也可以根据专业、特殊要求来选择。O型血相对较特殊,咱们就选O型作为参照,也就是最后一个虚拟变量【血型_4】,将其直接删去 。

删去【血型_4】后,保留下来的【血型_1】【血型_2】【血型_3】即为我们要得到的哑变量。此时,完成将一个分类变量转换为哑变量的操作。

大家来看,哑变量【血型_1】中出现数字1的即对应A型血,【血型_2】中出现数字1的即为B型,【血型_3】中出现数字1的即为AB型,而三个哑变量同时编码为数字0时(参照)对应的O型。

哑变量的含义表示相较于参照(O型血)的差异,这一点也需要知道。

同类文章阅读:
线性回归时如何对分类变量进行哑变量处理?

通知:本号出品的《SPSS从入门到实践提高》视频课程2周年活动正在进行,活动期间购买课程赠送图书《谁说菜鸟不会数据分析SPSS篇》一本,有兴趣的读者,欢迎了解、选购。

课程地址:

课程地址:

https://study.163.com/course/introduction/1003945001.htm?share=1&shareId=1149679450

本文地址:http://www.datasoldier.net/archives/1542
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
SPSS在线视频学习
欢迎订阅SPSS训练营微信公众号

评论已关闭!