SPSS案例实践:谱系/分层/系统聚类

原创 数据小兵  2021-03-16 09:58  阅读 2,196 次
数据小兵成长记

这个聚类方法的常见名称包括谱系聚类,分层聚类,或系统聚类,英文名称为hierarchical 聚类。多用于样本量少于100个的定量数据,可以对样本聚类也可以对变量聚类。

01

案例背景介绍

收集到我国某年各地城镇居民平均每人家庭收入统计数据,试对全国各地区的收入来源结构进行分类。

聚类依据有4个指标,分别是工薪收入、经营净收入、财产性收入和转移性收入,这四个数据均是连续型数值,符合hierarchical聚类的数据要求。聚类的对象是全国主要省市地区,比如北京市、甘肃省等,是字符串定义。

从数据上看,量纲差异不算太大,暂不考虑标准化处理。

02

系统聚类菜单操作

菜单【分析】→【分类】→【系统聚类】,

1)以工薪收入、经营净收入、财产性收入和转移性收入作为聚类变量
2)用地区的名称做标记
3)对个案即全国各地区聚类

点开【统计】对话框,

当前我们不清楚聚类结果,先输出多种结果,聚成3-6类,最后做讨论决定。
点开【图】对话框,要求软件给出树状图(谱系图)。

聚类方法 我们就先用默认的组间连接法,并且暂不做标准化处理。

和前面对应,保存出聚成3-6类的 类结果。

返回主对话框,点【确定】执行分析。

03

系统聚类结果解读

聚成聚类合适?SPSS没能直接给出比较好用的类评价指标,软件把类评价的权利全部扔给了用户,需要用户自己去总结类的特征并且判断是否成立。

树状图可以用来辅助观察聚类的结果,

关于如何解读树状图/谱系图,大家请看下面这篇文章:

如何看懂SPSS聚类分析的树状图/谱系图?

本例暂时认为聚成5类比较合适,西藏单独作为一个类,北京上海一类,浙江广东一类,江苏福建天津山东重庆一个类,剩余的其他地区作为一个大类。从经济发展、收入来源分布比较符合某年的分布状况。

就本案例来说,到底聚几个类合适,这个问题最好是交给社科方面研究的人去回答,或者做这项研究的专家来解答,术业有专攻嘛。

再来看看聚类成员变量,

前面我们是要求SPSS遍历了聚成3到6类的操作,所以聚类成员变量有4个,分别记录了聚成3或4或5或6类的成员归属。

假设我们聚成5类。来统计描述一下5个类的规模大小。就是做频率统计嘛。

编号为3类,有21个地区,占总地区的67.7%,是最大的一个类别。

有没有办法可视化效果观察一下各类呢,可以有,咱们公号以前文章介绍过画个3d散点图或2d散点图就可以展示了。3d效果如下。

3d散点图怎么制作呢,看下面这篇文章。

☞聚类分析的结果如何用散点图展示出来?

本文完
文/图=数据小兵

 

使用SPSS有疑问怎么办?
找谁咨询呢?

欢迎大家加入本公号开发的SPSS视频课程,长期有效,可反复播放观看,提供一对一答疑服务。

数据小兵坚持写博客已经13年

坚持写微信公号文章7年
坚持更新SPSS视频课程3年
坚持一对一答疑讨论3年
绝对超值:一对一答疑

欢迎加入SPSS视频课程
竭诚服务

本文地址:http://www.datasoldier.net/archives/2878
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
视频课程《SPSS统计分析:从入门到实践提高》
欢迎订阅SPSS训练营微信公众号

评论已关闭!