Python与SPSS对比:连续数据离散化(分箱/分组)

原创 数据小兵  2020-05-06 14:45  阅读 4,782 次
数据小兵成长记

连续数据和类别数据是数据分析中常见的数据类型,连续数据比如销售额、工资收入、身高体重等,类别数据比如学历、性别、年龄段、病情严重等级等。

有时候因为数据分析方法的需要,会将连续数据转换为类别数据。比如年龄转换为年龄段(20岁以下、21-40岁、41岁以上),工资收入转换为收入水平(低、中、高),此过程也称作连续数据离散化,或分箱操作,Excel中通常理解为转换为分组数据。

Python如何做的呢?看下文 ↓↓↓

 

Python数据处理:数据连续离散化(分箱操作)

该文简要介绍了什么是连续数据离散化,通过具体案例展示python实现等宽法离散化、等频法离散化,并提供原始代码和案例数据下载,有需要动手练习的可以下载数据对照学习。

SPSS如何做的呢?看下文 ↓↓↓

SPSS统计分析案例:可视离散化

该文通过具体案例演示SPSS实现可视离散化操作过程,特点是无编码,所见即所得,不懂软件不懂数据分析的也较容易接受。

本号给大家提供一组含有“年龄”数据的SPSS数据文件,在【SPSS统计训练营】微信公号后台回复【分箱】,获取百度网盘下载链接,下载后可对照上面这篇文章进行学习。

本文完

文=数据小兵

本文地址:http://www.datasoldier.net/archives/2122
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
视频课程《SPSS统计分析:从入门到实践提高》
欢迎订阅SPSS训练营微信公众号

评论已关闭!