R语言ggplot2统计图形:常见的4种箱线图

原创 数据小兵  2020-06-17 09:39  阅读 4,861 次
视频课程《SPSS统计分析:从入门到实践提高》

箱线图在观察数据分布状态、异常值方面有独特优势,是统计图形中必学必会的图形之一。小兵今天用R语言的ggplot2包上机练习制作几种常见的箱线图

数据源:雇员数据employee

在【小兵学R语言】微信公众号后台回复【雇员】下载数据,欢迎读者朋友自行实践。

1.单个箱线图

目标:考察薪资数据分布,异常值状况。

p <- ggplot(data=employee,aes(x="薪资",y=salary))p+geom_boxplot(width=0.3)

有少量人的薪资数据偏高,造成箱线图顶部有一些异常值。存在即合理,不要着急去剔除。

2.分组箱线图

目标:考察不同职位类别人群的薪资分布、异常值状况。

p <- ggplot(data=employee,aes(x=jobcat,y=salary))p+geom_boxplot()

给不同分组按照不同职位类别类填充颜色加以区分。
p+geom_boxplot(aes(fill=jobcat))

添加图标题和横纵轴标题。
p+geom_boxplot(aes(fill=jobcat))+labs(title="不同职位类别薪资分布",x="职位类别", y = "当前薪资")

3.散点箱线图

目标:在分组箱线图基础上添加散点,提高统计图形的可读性。
p+geom_boxplot()+geom_jitter(width = 0.2, alpha = 0.5, color = 'red')

jitter可以理解为抖动,将散点打散,让我们能观察到点的集中与分散的分布状况。

上图中,箱子和黑色点为箱线图的元素,红色的散点则为原始数据的散点图元素,按层堆叠在一起,构成这样一幅有层次感的“带散点的箱线图”。

4.面板箱线图

目标:按照不同的分组呈现各自独立箱线图。
p+geom_boxplot()+facet_wrap(~gender)

女性和男性各自独立呈现箱线图,相当于用图形可视化的形式对数据进行拆分对比。能够帮我们切割数据粒度,便于对比比较,从而观察到有价值的信息。

本文完
文/图=数据小兵

 

小兵推荐阅读

 

本文地址:http://www.datasoldier.net/archives/2210
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
SPSS在线视频学习
欢迎订阅SPSS训练营微信公众号

评论已关闭!