SPSS统计分析学习笔记10:TwoStep二阶聚类(两步聚类)

原创 数据小兵  2018-11-12 10:17  阅读 304 次
视频课程《SPSS统计分析:从入门到案例实践》

样本数据聚类效果的好与坏,参与聚类的变量在其中的作用至关重要。而现实中,聚类变量可能是连续数据,也可能是类别数据,所以诸如层次聚类和K均值聚类这样的统计方法,它们在类别变量数据面前就显得不足够实用了。

二阶聚类法,则可以完美解决这个问题。它的优势至少表现在以下几个方面:

可同时基于类别变量和连续变量进行聚类;
可自动确定最终的分类个数;
可处理大型数据集;

二阶聚类,或TwoStep聚类,也常被称为两步聚类,顾名思义就是整个聚类过程分为前后两个大的板块来完成。

第一步对所有记录进行距离考察,构建CF分类特征树,同一个树节点内的记录相似度高,相似度差的记录则会生成新的节点。第二步,在分类树的基础上,使用凝聚法对节点进行分类,每一个聚类结果使用BIC或者AIC进行判断,得出最终的聚类结果。

同其他统计方法一样,二阶聚类也有严苛的适用条件,它要求模型中的变量独立,类别变量是多项式分布,连续变量须是正态分布。

看一个案例。

SPSS软件自带数据car-sales.sav为例。汽车生产厂商需要有效的方法评价当前市场情况,了解市场需要,找到受市场欢迎的,有市场竞争力的车型配置。

案例将采用种类、价格、引擎型号、马力、轴距、宽度、长度、限重、储油量、用油功效共10个变量对152条有效记录进行自动聚类。(本例主要展示二阶聚类过程,暂不考虑变量独立性检验)

一、SPSS二阶聚类参数设置

1、依次点击  分析→分类→二阶聚类  菜单命令,弹出【二阶聚类分析】对话框(或称主面板),如下所示:

  • 将唯一一个类别型变量“种类”移入分类变量框,并将“价格”、“引擎型号”、“马力”、“用油功效”等9个连续型变量移入连续变量框内;
  • 在距离测量选项卡中选择“对数似然”,作为聚类变量相似度的测量形式;在聚类准则选项卡中选择“BIC”,作为聚类个数的判断依据;其他选项默认设置;

2、主面板上点击“选项”按钮,弹出【二阶聚类 选项】对话框,如下所示:

  • 本案例暂不进行噪声处理;模型构建的内存最大分配默认为64MB;
  •  重点看“待标准化”框,软件自动将9个连续型聚类变量纳入框内,表示软件将对这些变量自动进行标准化处理,以统一测量尺度;

3、在主面板点击“输出”按钮,弹出【二阶聚类 输出】对话框,如下所示:

  • 勾选“透视表”,输出的结果主要出现在结果查看器(主要是表格形式);
  • 勾选“图表和表”,输出的结果出现在模型查看器(可视化程度高);
  • 重要:勾选“创建聚类成员变量”,这是整个聚类的最终结果,要求软件为每一行记录输出对应的类;
  • 本案例暂不演示“XML模型导出”(便于模型更新,十分有用);

返回主面板,点击底部“确定”按钮,软件开始执行二阶聚类。

二、结果查看器 结果解读

主要罗列二阶聚类的透视表结果,均是表格,可视化程度较低,主要结果解读如下:

BIC自动聚类表

重要结果之一。此表主要用于了解软件是如何根据BIC值自动判断最终聚类个数,主要参考依据包括“BIC值”、“BIC变化量”、“BIC变化率”、“距离测量比率”四个指标,SPSS软件综合四个判据,最后自动确定最佳聚类个数。

此处可不必完全掌握具体如何判断,接受SPSS软件智能化给出的聚类个数即可。(尤其适合非统计专业)

聚类分布表

那么本例软件最终聚为几类呢?如上表所示,软件给出一个3类的结果,并告知每一类的个案规模。这三类是不是最合适,可以具体看类的特征是否有现实意义。

三、模型查看器 结果解读

结果查看器中双击“模型摘要图”,打开模型浏览器,这一部分结果高度可视化,读取更直观。模型浏览器分为左右两个板块,左侧为主视图,右侧为辅助视图,主要结果解读如下:

主视图 模型摘要

展示模型的基本信息,基于10个聚类变量进行二阶聚类,最终确定的聚类个数为3类。总体上给予本次聚类质量尚可的评价,尚能接受,还未达到良好的程度,有待进一步测试和优化。

辅助视图 聚类大小

聚为3类。其中第1类个案规模占有效样本的比例为40.8%,第2类为25.7%,第3类为33.6%,这和前面透视表给出的结果一致。总体判断:3个类的个案规模没有出现过大或者过小的情况,区分度尚可。

辅助视图 预测变量重要性

在区分不同类别的能力方面,“种类”变量效果最好,限重、用油功效排在第二和第三的位置。也可以理解为种类、限重、用油功效三个变量对聚类的贡献排在前三位。

主视图 聚类特征描述

聚类分析最终的目的就是要得到类并且能足够清晰地描述类的特征,上表将类和聚类的各变量交叉分析,给出每一类在不同指标上的中心点或分布,有助于准确归纳类特征。

点击其中一个单元格,比如2类的“用油功效”单元格,在右侧软件将会输出辅助视图,如下:

结合以上两张图表可知,第2类车在油耗方面表现最佳,是3类车中比较实用的车型。

聚类比较

在模型浏览器左侧的主视图中按ctrl键,同时选定两个或以上类,在右侧辅助视图中将出现两个类或以上类的特征对比。

以第1类和第3类为例,两类在价格方面差异较大,第3类价格偏高,而第1类价格较低;车的长度上,第3类同样较长,此外还可以看到,第3类车型在轴距、宽度、马力、储油量、限重等方面较第1类都高很多。

四、类成员

聚类之后,我们有必要就每一个记录对应的类有所了解,类成员变量(最终的聚类结果)非常重要,便于日后深入比对和分析。

软件将其自动保存在数据视图最后一列,新生成变量“TSC_n”,其中TSC即表示二阶聚类,n是一个正整数,表示本次过程执行的内部运行顺序。

五、类特征总结

综合以上信息,3类车型可以描述如下:

  • 第1类:价格便宜,体积、限重和马力较小,属于低端车型;
  • 第2类:价格适中,体积、限重和马力较第1类明显提高,油耗低特征突出,属于实用车型;
  • 第3类:价格较高,体积、限重和第2类相差较小,但马力在3类车中最高,油耗居中,属于高端车型;

在SPSS软件提供的三种聚类算法中,二阶聚类最为特殊,一是因为可以同时处理类别变量和连续变量,还有一点极为关键,二阶聚类可以自动确定最终的类的个数,算得上具备自动探索未知领域的能力,这是SPSS层次聚类和K均值聚类无法相比的。

能自动聚类、允许类别变量,再加上善于处理大数据集,二阶聚类的优势十分明显,可以在各行业方便有效的使用,值得推荐。


点击 关键词 查看热门文章

随机数 | 量表 | 张文彤 | 线性回归 | 列联表 | 对应分析 | 多项logistic 王江源博客 |独立t检验 KS检验 | ROC曲线 | 找缺失 | 计算变量 | 交叉表 | 多重响应 | 百度文库 | 百度经验 | 最优尺度 | 游程检验 | 电子书 | 安装教程 | 综合评价 | 菜鸟教程 | 如何提问 | 信度分析 | 答疑题库 | KMO | 11个视频 | 树状图 | Logistic视频 | 博客文章 | 9本教程 | 主成分 | 沈浩讲因子分析 | 因子分析 | 正交试验设计 | 百分比 | 词云制作 | 学习心得 | 卡方1 | 卡方2 | 软件选择 |

本文地址:http://www.datasoldier.net/archives/665
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
欢迎订阅SPSS训练营微信公众号
SPSS上机训练作业

评论已关闭!