数据的收集、整理与保存

-回复 -浏览
楼主 2019-06-13 11:58:50
举报 只看此人 收藏本贴 楼主

数据的收集和整理是进行数据分析的重要前提,它的质量好坏直接影响到数据分析结果的准确性和可用性。下面从四个方面对数据的收集和整理进行阐述:

数据收集原则;

数据的获取;

抽样方法;

数据的整理;


数据收集原则

数据分析的第一步是数据收集,收集数据时,需要坚持以下三个原则:



数据的获取

数据的获取途径不同,采集数据的方法也有差异。



抽样方法

研究对象总体往往数量巨大,对它的性质进行分析时,一般都会采用抽样的方法。用样本数据的特征来推断总体的数据特征。抽样方法可以分为两大类:非概率抽样和概率抽样。非概率抽样是针对某些特定研究项目的,而概率抽样是常用的抽样方式。



非概率抽样

  • 方便抽样:抽样时,以方便为原则。例如,某影评人为收集观众对某部电影的评分情况,可以随机在电影院出口进行抽样采访。

  • 主观抽样:以采样者的主观意愿选择总体中具有代表性的样本。例如,研究榨菜销量下降原因,采集农民工群体购买榨菜的情况。

  • 配额抽样:将总体按照某些因素进行分类或分层,然后在各层或各类中进行主观抽样。配额抽样使样本在结构上与总体相似。例如,对某小学进行抽样,根据每个年级学生人数在总人数中的比例来确定抽样比例。

  • 滚动抽样:根据上一个样本的信息来确定下一个样本。例如,小红被老师提问,小红回答错误后,推荐小丽回答。


概率抽样

  • 简单随机抽样:从总体中随机抽取个体作为样本,每个个体被抽中的概率都是相等的。例如,欧冠淘汰赛对阵抽签,主持人随机在盘里抽取内含队名纸条的乒乓球。

  • 等距抽样:将总体中的所有个体按某个条件排序,然后随机确定开始位置,再按照相等的距离抽取个体。例如,某学校对新生分班,先按照成绩从高到低排序,然后等距抽样组成一个班级。

  • 分层抽样:将总体按照某写条件进行分层或分类,然后从每层或每类中随机地抽取个体组成样本。

  • 整群抽样:将总体按照某条件划分成不同的群体,然后再随机抽取一个或几个群,对抽取的群中的个体进行数据收集。


数据的整理和保存

数据收集完以后,还需要对数据进行整理和保存。通常数据可以保存在各种办公软件和数据库中。数据的整理技术主要包括:数据的重编码,数据属性定义等,已经有文章介绍过这方面的内容,请前往导航页回顾。下面重点对数据的保存格式做一下说明:


个人在进行数据分析时,常将数据保存在Excel表格中,用如下格式保存:


上表是一个二维交叉表格,该表格在进行数据的分析和展示时非常常用和好用,但是如果将数据保存为这个格式则非常不方便,例如,如果我想在英语成绩下面加上“性别”变量,则顶格的三线格内的学科的定义就不正确了。


上述数据如果整理成如下形式就不存在这个问题,如下图所示:


在上表中,每一列为一个变量,每一行为一个个体(个案)。数据保存为这样的形式,可以非常方便的形成不同变量组成的二维交叉表(例如,Excel可以使用数据透视表),且不会出现变量交叉的情况。这种数据保存格式也是大多数数据库采用的数据保存方式。


温馨提示:

  • SPSS教学视频,请点击《SPSS入门基础》视频教程

  • 生活统计学QQ群:134373751,用于分享文章提到的各种案例资料、软件、数据文件等。支持各种资料的直接下载和百度云盘下载。

  • 生活统计学微信交流群用于各自行业的数据研究项目及其成果交流分享;由于人数大于100人,请添加微信possitive2,拉您入群。

  • 数据分析咨询,请点击首页下方“互动咨询”板块,获取咨询流程!

我要推荐
转发到