SPSS如何从数据中随机抽取100条记录?

原创 数据小兵  2020-09-23 15:54  阅读 202 次
视频课程《SPSS统计分析:从入门到实践提高》

完全随机抽样是常用的一个操作,例如我想从700个人中只随机抽取100个人的数据用来做研究分析。再比如有500人参与抽奖如何从中随机抽取3个人中奖呢。

SPSS可完成此项工作的菜单是:【数据】→【选择个案】→【随机个案样本】。

先来一个案例。现在有700位客户的贷款信息,我现在想随机抽取其中100个客户的数据,用来做贷款业务登记工作的检查核对。即从700条记录中随机抽取100条记录。

依次点击菜单:【数据】→【选择个案】→【随机个案样本】。

我们选择【随机个案样本】,并点击下方【样本】按钮。

关于【输出】要说明一下,我们如何存储随机抽取的100个个案呢?SPSS提供3种方案。

第一是【过滤掉未选定的个案】,

在原始数据集上没有抽取到的个案被标记上斜线,表示被过滤掉(将新增一个过滤变量),只保留100个抽取的记录。如果我们想恢复抽取前的状态,那么只需要删掉新增的过滤变量即可,是允许我们用户后悔的,不破坏原数据集。

第二是【将选定的个案复制到新数据集】,

即抽取得到的100个条记录将另存为一个新的数据集,并且需要你指定数据集的名称。由此产生一个新的样本量只有指定抽取量的数据集。

第三是【删除未选定的个案】,

即把未选定的直接删掉,原始数据集原来的700条删减为100条,这个和第一个方法不同,虽然都是在原始数据集上进行变换,但是第三种直接删除了,没有后悔药,使用时需要慎重。

具体的随机抽样呢,我们可以直接指定只抽取100个个案,并且明确指定是从所有700条中抽取100个。

结果解读

在【数据视图】下,可以看到随机抽取的结果。在原始数据集上,最左侧id号上出现了许多斜杆,这个就是过滤的意思,数据的最右侧新增了一个新的变量叫做【filter_$】即过滤变量。

随便对【家庭收入】数据做个描述统计,看看结果:

看到了吧,此时描述统计表格中的统计对象是被我们随机抽取的100条记录数据。

因为我们采取【过滤掉未选中的】方案,因此原始数据集没有被破坏,当我们想撤销随机抽样时,只需要删除新增的过滤变量【filter_$】即可。

还有另外一个知识点需要强调。如果我们想重复刚才的抽样,怎么办?假设我们第一次抽取了100个人,接着不小心删掉了过滤变量【filter_$】,那么我们就无法知道刚才到底抽取到了哪100个人,我们还想重新来一遍,还是想抽取到刚才的100人,怎么办呢?

这个知识点就是:指定随机种子

上面演示的案例就没有指定随机种子,所以我们就无法重复刚才的抽样过程和结果。

指定随机种子,在这里完成:【转换】→【随机数生成器】。

勾选【设置起点】,指定【固定值】为【123456】,注意哦,这个数字可以随便填写,原则是你必须能记住它,比如你可以写1234,也可以写今天的日期20200811。我们就写123456做个测试。

【确定】,退出随机种子指定对话框。现在再重复一遍上面我们演示过的随机抽样过程菜单:【数据】→【选择个案】→【随机个案样本】,继续从700人中抽取100人。

我们将会得到结果1(部分截图):

然后我们删掉【filter_$】,恢复原始数据集状态。为了验证重复性抽样,我们再次执行一遍【数据】→【选择个案】→【随机个案样本】,继续从700人中抽取100人。(注意啊必须继续指定固定的随机种子为123456)。

我们将会得到结果2(部分截图):

在指定固定随机种子123456后,前后两次的随机抽样结果完全一致,这个即为可重复的随机抽样。

本文完
文/图=数据小兵

文章推荐阅读

数据小兵坚持写博客已经12年
坚持写微信公号文章6年
坚持更新SPSS视频课程2年
坚持一对一答疑讨论2年
绝对超值:一对一答疑
欢迎加入SPSS视频课程
竭诚服务
视频课程入驻网易云课堂在线学习平台,目前主推三套视频,分别为:

《SPSS统计分析:快速入门与实践提高》

视频地址:

https://study.163.com/course/introduction/1003945001.htm?share=1&shareId=1149679450

本文地址:http://www.datasoldier.net/archives/2431
版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!
SPSS在线视频学习
欢迎订阅SPSS训练营微信公众号

评论已关闭!