SPSS二项logistic回归分析案例实践,做个预测模型

原创 数据小兵  2020-11-12 10:54  阅读 12,660 次
数据小兵成长记

SPSS二项logistic回归分析案例实践,做个预测模型

自己动手实践是学习统计软件工具的捷径之一。

收集到某公司各个商户id,以及他们的注册时长、营业收入、成本数据,以及合作续约的情况,现在我们想尝试基于这样的数据创建商户续约预测模型。

简要分析一下,因变量是是否续约(0或1),可能的因素包括注册时长、营业收入、成本数据。

01
SPSS菜单操作

数据读取到SPSS,打开菜单【分析】→【回归】→【二元logistic】。

1)因变量:是否续约;
2)块/自变量:注册时长、营业收入、成本,三个均为连续性数据;
3)回归方法:因自变量/因素变量较少,所以先考虑全部进入模型,因此选择【enter法】;

点开【选项】对话框,

1)勾选霍斯默-莱梅肖拟合优度检验,也简称为HL检验,显著性p值越大越好(可取>0.05),表明模型拟合较好;
2)勾选【在最后一个步骤】,让结果简要简约;

OK,直接命令软件执行此次分析。

02
结果解读

SPSS输出的结果很多,我们需要挑着捡着解读,不必要把所有的图和表格都做解读。

首先模型显著性检验,即卡方检验。模型有统计学意义,至少有一个引入的因素变量有效果(χ²=336.172,P<0.001)。

另外,模型拟合质量如何?还可以参照HL检验的结果。

模型拟合优度通过检验,或通俗理解为拟合良好(P=0.651>0.05)。

模型有效了,那么这个模型长什么样子呢?

上表即模型参数估计及检验表格。B列为各回归系数,据此写出模型表达式如下:

logit(P)=-2.287+0.099*注册时长+0.014*营业收入-0.187*成本

这个表达式中的各系数都有显著性吗?看wald检验p值,那我们发现三个因素对是否续约的影响有统计学意义(P<0.001)。

这种显著影响,如何解读?举个例子,营业收入每增加一个单位,则商户继续续约的可能性增加1.4%,注册时长和营业收入均是继续续约的利好因子。相反地,我们发现成本是影响是否继续续约的不利因素。(基于OR值数据结果)。

从目的来讲,我们是希望做一个续约预测模型。SPSS软件默认是以0.5作为概率临界值,将概率大于等于0.5的预测为二分类结局中的取值大的分类,将概率小于0.5的预测为二分类结局中的取值小的分类。

现在这个模型有了,其预测能力如何呢?

预测不续约的准确率为54.7%
预测继续续约的准确率为83.7%
总体预测准确率73.1%

作为公司运营人员来说,我更看重的是预测不续约的准确率,因为我会提前跑去找商户沟通,想尽办法让商户继续合作。现在模型预测该方面的准确率是54.7%,说实话偏低啊,50%多一点的把握,和我扔硬币的概率差不多。

该模型可能导致我失去提前判断不续约商户并做出沟通的权益。所以模型的实际应用能力是有待继续提高的。

案例来源:
狄松等著《谁说菜鸟不会数据分析SPSS篇》

本文完
文/图=数据小兵

 

◢ 为你推荐以下文章 ◣

常见logistic回归模型有哪几种?
用SPSS做有序多分类logistic回归分析
SPSS统计案例多项logistic回归分析
logistic回归分析如何进行多重共线性检验?
logistic回归方法的选择
如何选择有序多分类logistic回归连接函数?
《SPSS统计分析:快速入门与实践提高》

视频地址:

https://study.163.com/course/introduction/1003945001.htm?share=1&shareId=1149679450

本文地址:http://www.datasoldier.net/archives/2593
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
视频课程《SPSS统计分析:从入门到实践提高》
欢迎订阅SPSS训练营微信公众号

评论已关闭!