SPSS可视分箱:四分位数法将连续数据转换为分类分组数据

原创 数据小兵  2020-11-19 17:51  阅读 7,968 次
数据小兵成长记

logistic回归分析时,经常需要将本来是连续数据的转换为分类数据,术语上叫做连续数据离散化,Excel用户把这项工作称之为分组,还有一些教材称之为分箱分桶。

举个最简单的案例,将具体的年龄转换为年龄段,将具体的收入转换为收入水平。

01

案例数据和目的

现在我们有一个工龄变量,是连续型的数据,记录的是职工参加工作的年数,现在我有一个任务,就是将工龄转换为分段的。

如何分段?一般是凭专业知识和经验规则,再或者可以考虑使用四分位数法,或五分位数法进行分段。小兵今天这个案例就用SPSS做四分位法分段。

02

四分位法分段

先就“工龄”连续数据,直接在【分析】→【描述统计】→【频率】菜单,做个频率的条形图,观察一下工龄的分布状态。如下:

所谓四分位法分段,即计算四分位数,然后以四分位数为分割点,将连续数据切割为4个水平分组。第一个分割点即Q1(低于Q1),第二个分割点即中位数(Q1~Q2),第三个分割点即Q3(Q2~Q3),以及剩余的Q3~Q4。所以四分位法分箱只需要3个分割点。

03

SPSS可视离散化

读者朋友先不要着急去描述统计计算“工龄”数据的四分位数,小兵今天将使用的是【可视分箱】菜单,这个菜单下,可以自动计算百分位数并分段分组。

依次点菜单【转换】→【可视分箱】,将“工龄”选入要分箱的变量框内。

1)离散化会新生成一个新的分段变量,所以先给新变量命名,比如本例“工龄分箱”;

2)点击【生成分割点】;

弹出对话框,我们在这里设置百分位数分箱。

1)勾选【基于所扫描个案的相等百分位数】,即我们将命令软件按照百分位数来进行分箱;

2)分割点数输入数字3,这个前面我已经分析过了,四分位数法分段,是3个分割点。

返回主对话框,点【生成标签】按钮,我们再给每个分段自动匹配一个标签,通俗点说,就比如数字1代表30岁以下,数字2代表30-40岁之间的。

参数设置搞定。命令执行。

04
结果展示与解读

数据视图下的结果,如上。

对新的【工龄分箱】变量做条形图,如下:

原来是连续数据的,现在被我们强行分割为4个分段或分组,第一组是工龄小于等于3年的,第二组的是工龄在4到7年之间的,以此类推去解释。

再来一个分箱转换前后的对比:

本文完
文/图=数据小兵

 

◢ 为你推荐以下文章 ◣

直方图和条形图有没有区别?
SPSS直方图是可以自主分箱的
SPSS图形法检验正态分布
SPSS统计图形:箱线图/盒须图
SPSS频数表、频数分布图制作
矩阵散点图:多变量关系探查利器
《SPSS统计分析:快速入门与实践提高》

视频地址:

https://study.163.com/course/introduction/1003945001.htm?share=1&shareId=1149679450

本文地址:http://www.datasoldier.net/archives/2609
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
视频课程《SPSS统计分析:从入门到实践提高》
欢迎订阅SPSS训练营微信公众号

评论已关闭!