logistic回归可以实现分类预测的结果,首先你需要在训练集数据上拟合最佳模型,并将该模型(可以通俗理解为回归方程式)另存为xml模型文件。然后打开一个需要预测的新数据(或验证集),通过SPSS【评分向导】功能实现预测。
用案例说个明白。我现在想快速识别违约客户,先找一批客户贷款及信用的历史数据,创建二项logistic回归模型。
二元logistic回归的SPSS具体操作案例,看下面这篇文章:
SPSS二项logistic回归分析案例实践,做个预测模型
为方便案例示范,咱们一步到位采取向前LR的逐步回归方式,目的是获得一个最佳的模型,因为我们要拿模型用于新数据的预测,所以此处特别强调,打开【保存】对话框,【将模型信息导出到XML文件】,浏览一个固定的文件夹,给xml文件起个名字,本例命名为model.xml,保存起来,后面一会要用到。
执行后,结果查看器中的统计表格咱们就不多展开看了,只看下面这个回归系数表格。
年龄、受雇年、居住年、收入等对是否违约有预测作用,具有统计学意义。根据这个表格我们可以写出logistic回归的模型方程表达式。
有的读者说,我们直接写出这个表达式,有新数据后,把新数据代入回归式计算不就可以预测吗?对!这么做是可以,但是自己计算容易出错,而且代入计算比较麻烦,易错且操作复杂这显然不合适的。
所以,本文给大家介绍SPSS【评分向导】功能,这个独立菜单可以读取此前我们建模时保存下来的xml模型文件(保存有回归方程式信息),然后匹配对新数据进行计算。要求新数据的自变量和建模时的变量一致。
咱们来示范。打开一个新数据的SPSS文件。菜单【实用程序】→【评分向导】,
读取到模型信息,点【下一步】,
检查一下匹配的自变量,点【下一步】,
预测时要同步输出的4个新变量,最重要的就是所需类别的概率和预测值,注意此处要指定我们的预测目标,本例是要预测违约的概率和每个人的归类。
最后直接点【完成】执行预测。
怎么看?比如第一个人,他的年收入42000,预测违约的概率是0.1小于0.5,所以判定他是不会违约的。再比如第7个人,他的年收入是15000,预测违约的概率是0.52大于0.5,所以判定他是要违约了。
为了防止新手看这4个新数据出错,我建议直接只读取所需类别的概率和predictedvalue这两个列的结果。
本文完
文/图=数据小兵

评论已关闭!