现有贷款用户违约数据,我想考察学历和违约的关联性,不同学历水平用户他们的违约率有无差别。
加载gmodels包
library(gmodels)
由于是原始数据记录,因此咱们是直接进行统计分析。CrossTable()函数可以直接对原始数据记录进行交叉表创建,以及卡方检验。
CrossTable(bankloan$教育,bankloan$违约,expected = T,format = "SPSS",fisher = T,prop.c = F,prop.t = F,prop.chisq = F)
来看结果:
交叉表。如上所示,给出不同学历人群违约、未违约的频数、百分比比例。关键结果是期望频数T,这个是很重要的,因为交叉表卡方检验的统计结果适用性,要依据这个期望频数来定义。
扩展阅读↓↓

卡方检验显著性检验表格。我们这次是要求R直接给出Pearson's Chi-squared,还有Fisher's Exact Test 。大家看交叉表,有20%的期望频数小于5,最小的期望频数T=1.3。再依据上方小兵分享的扩展阅读,卡方检验使用条件,我们谨慎起见,选择读取Fisher's Exact Test。
结论撰写:Fisher精确检验结果显示,不同学历水平用户违约率差异有统计学意(P=0.017),也可以理解为学历对是否违约有一定的关联性关系。
本文完
文/图=数据小兵
练习R:用lm.ridge()做岭回归分析,可惜无法输出R平方
练习R:lm+plot+abline+text四函数绘制线性拟合散点图
练习R:car包recode函数多分类变量的重新编码
练习R:stepAIC多元逐步回归
练习R:用3d空间图展示多元线性回归模型
练习R:用3d空间图展示多元线性回归模型
练习R:dplyr包arrange函数排序
练习R:DoE.base包生成标准L9-3-4正交表
评论已关闭!