在学习冯国双《白话统计》一书时,提到结局是计数资料的可以根据发生率、是否泊松分布考虑使用Poisson回归分析。
这里特别注意一下,计数资料和分类资料是有区别的。计数资料是靠计数、清点得到的数值,它含有单位,而分类变量没有单位。
Poisson回归适用于当我们想考察是哪些因素导致了稀有事件发生的次数这样的分析场景。它至少有两个基础的条件,一是事件发生的独立性,二是服从泊松分布,要求均值和方差相等,即要求等离散性。
01
案例背景介绍
这次我用stack.dat数据,只有4个变量,是一个化工厂21天内记录氨气流失的数据,Loss是我们的结局变量,氨气损失量,Air.Flow空气流动量, Water.Temp水温,Acid.Conc.酸浓缩比。
02
统计策略
因变量是Loss,它是一个稀有事件(氨气流失的次数),属于计数资料。其他三个是自变量因素。
因为因变量是计数资料,这里不适用logistic回归。首选Poisson回归,是否满足它的基础条件,咱们一会再看统计结果。
03
软件操作
菜单:广义线性模型→模型类型选择泊松对数线性。
菜单:响应→因变量Loss,预测变量→协变量Air+Water+Acid。模型→主效应选入三个自变量,即不考察交互。
菜单:统计→除默认勾选外多勾选【包括指数参数估算值】,要求及时IRR(类似于OR值)。
其他参数默认设置即可。初学,不熟悉的参数就默认不要动手随意修改。
04
结果解读
有资料指出,可以用拟合优度表格的偏差值/自由度比值统计量粗略估计是否满足等离散性的要求或条件。
本例偏差/自由度=0.53,虽然没有大于1,但是也没有多么靠近1,不是很理想,勉强先算它满足等离散要求吧。
要说明的是,在R语言中我们是可以用其他函数来直接检验是否满足等离散性,这样做可能更准确一些。
全局检验结果表明,模型有统计学意义,至少有一个自变量有预测作用。
直接看参数估算表,即回归系数、IRR值表格。
首先三个自变量中,air和water是显著的,对因变量氨气流失有预测作用,回归系数均大于0,呈现正相关关系。
这里的EXP(B)理解为IRR,类似于OR值。比如air变量的IRR=1.029,可以通俗理解为是:空气流动每增加一个单位,氨气流失增加3%。
本文完
文/图=数据小兵
05
推荐阅读

评论已关闭!