如何定义SPSS变量属性?我的经验分享

原创 数据小兵  2018-11-05 10:10  阅读 133 次
视频课程《SPSS统计分析:从入门到案例实践》

SPSS数据文件比较独特,一份数据有数据视图和变量视图两个界面,准备数据时需要在变量视图下定义具体的变量属性,分不清变量类型,也不知道选用哪种测量方式,不知道变量标签值是什么概念,这些往往让许多初学者感到迷茫。

今天给大家分享一下小兵的经验。

类别型字符串数据,建议优先定义为数字类型+名义测度,并添加相应的标签值。

先不着急解释这里面的概念,我们先来看一组大名鼎鼎数据。由统计学家Fisher收集整理的鸢尾花卉数据集,包含150个记录,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。如下:

花萼长度,花萼宽度,花瓣长度,花瓣宽度4个变量呢,是具体的数字,可比较大小,可加减乘除,这类数据我们通常喜欢称之为连续型数值变量。定义为数字类型,标度测量方式,比较好理解。

重点是【种类】变量,它首先是类别型的,有3个分类水平,分别是Setosa,Versicolour,Virginica,比如Setosa这属于字符串类型的数据,我把这类数据称作是类别型字符串数据。

比如我们我们有一个变量是省份,那全国有31个省份,它的具体取值是具体的省份名称,比如陕西省,河南省,我把这类数据称作是名义型的字符串数据。

现在的问题是,iris数据集中的种类变量,如何定义才合适呢?

一部分读者会说,看菜下单,它取值有三Setosa,Versicolour,Virginica,均是字符串,那我们就把它定义为【字符串】类型,【名义】测量方式,试一下。

假设我们进行判别分析。看看会发生什么事故。

你会发现,被你定义为【字符串】类型的【种类】变量,根本就没有出现在待分析的变量列表中,判别分析需要【种类】这个变量,可是它现在完全找不到了。判别分析失败。

为什么会这样呢?问题就出在字符类型上,它不符合统计方法分析的需要。

那怎么办呢?定义为数字类型+名义测度,同时定义标签值属性,用数字1代表Setosa,用数字2代表Versicolour,用数字3代表Virginica。

再用判别分析测试一下,ok,完全没毛病。这就是准确定义变量属性的重要性。

此案例,也可以提示大家,尽可能地定义和使用变量标签值。在SPSS软件中,这一操作十分方便而且好处多多。

(全文完)

小兵广告时间

由【SPSS统计训练营】本号出品的《SPSS统计分析:从入门到案例实践》视频课程,将于11月6日起参加网易云课堂的双11优惠活动,届时将由网易云课堂系统调价优惠减免20元,学习和使用SPSS统计方法的读者不妨多关注,欢迎选购。

优惠活动期间,我还会为大家送上心动优惠券,2018年最后一次优惠,仅此一次。

这门课最大的特点其实不是课程本身,而是与小兵微信一对一交流互动,您在学习和实践当中遇到问题了,可以随时发起微信聊天讨论,小兵微信随时恭候大家。

课程+作业+微信一对一,小兵水平有限,诚挚服务,欢迎来访。

课程地址:

http://study.163.com/course/introduction/1003945001.htm

本文地址:http://www.datasoldier.net/archives/653
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
欢迎订阅SPSS训练营微信公众号
SPSS上机训练作业

评论已关闭!