大家好,我是数据小兵,给大家整理一下聚类分析的专辑(文章汇总)吧。
内含13篇文章,涉及概念原理,案例实践等内容分享。
===
00 综合性文章
关于聚类的综合性文章汇总:
案例或文章链接↓
===
SPSS统计软件提供了三种用于聚类的统计方法,分别是K均值聚类、系统聚类、两步聚类。
01 K均值聚类
K均值聚类等价的名称还有快速聚类,也有称之为逐步聚类的,英文名称K-means Cluster。
它要求聚类变量必须是连续型数值,且至少应该有一个聚类变量,实际上1个聚类变量真没有啥意义,建议两个及以上。
注意,以往我们很少强调聚类变量有什么要求,实际上这个方法对变量的多元正态分布、方差齐次等条件有一定的要求。如果忽视,可能导致错误结果。
有经验表指出,如果样本量大于100,则有必要考虑使用这个k均值聚类。它尤其是适合大样本、多变量的数据。
02 系统聚类
系统聚类,其他等价名称包括谱系聚类、分层聚类,英文为Hierarchical Cluster。
参与聚类的变量可以是连续数值(仅),也可以是二分类或多分类变量(仅),常见的应用是全部为连续数据的聚类分析。
这个方法可以对个案聚类,也可以对变量聚类,也是SPSS中唯一一个可以对变量聚类的聚类方法。
聚类时还应该考虑多个连续变量间是否存在共线性影响。
该方法有一个非常有名的输出结果,就是树状图。利用树状图,可以帮助我们观察和梳理聚类的过程,以及各大类与类成员间的关系。
03 两步聚类
它等价的名称有二阶聚类、二步聚类,英文名称为TwoStep Cluster。
这个聚类方法的数据,可以是连续数值(要求各自独立,多元正态分布),也可以使分类的数据(多项式分布),且可以同时允许这两种类型的数据。
比上面那两个聚类,其最明显的优势是可以自动判定聚类个数,当然,这个自动聚类k并不一定是最准确的,还应该结合专业去讨论决定。
和K均值类似,它也适合大数据集,它输出的结果可视化程度很高,相关统计图形美观大气。
本文完
文/图=数据小兵
参考资料:
[1] 张文彤. SPSS11统计分析教程(高级篇)[M]. 希望电子出版社, 2002.
[2] 卢纹岱. SPSS for Windows统计分析(第3版)[M]. 电子工业出版社, 2000.
如果大家有统计学方法选择、统计软件操作、统计结果解读分析、论文数据分析方面的问题,欢迎加入我的课程,额外给大家赠送1对1答疑咨询。