数据清洗浅析,从此远离“脏数据”

-回复 -浏览
楼主 2018-11-08 06:50:29
举报 只看此人 收藏本贴 楼主

数据清洗

数据清洗篇,计划分作4小篇,辅以案例,进行讲解。为照顾初学者及手机阅读用户,插入了大量GIF动图。加载时间稍长,请耐心等待。



此处补缺的含义,主要针对空白单元格。它是一种十分可怕的“脏数据”,必须首先清洗。如图-1:


图-1


看C15单元格,公式=sum(C3:C13),没问题。我们再仔细观察,会发现公式结果肯定错了:一是求和结果出现了小数点,二是C列中的C12是空白单元格。但是公式结果照出,并且没有给一点错误提示!


这一点细思极恐。假如我们处理成千上万条数据,中间若存在空白单元格,人眼根本看不到,那么最终计算结果,还不知道误差有多大!(关键没有一点提示,让人错了还不自知。)


造成空白单元格的原因有很多。例如服务器过载、宕机,或者人为误操作等。


综上,空白单元格,是普遍存在的一种“脏数据”,潜在危害可大可小,应当首先清洗!


下面还是结合图-1的成绩表,继续讲解。


1. 检查空白单元格


利用Excel快捷键Ctrl+G,可以十分方便的检查出,是否存在空白单元格。操作演示如下:



操作最后,提示“未找到单元格”,表明所选区域无空白单元格。快捷键Ctrl+G,几秒钟完成检查,你值得拥有。


接下来演示,当数据量较大时,如何快捷操作:



操作最后,未提示“找不到”,图中标红单元格即为空白单元格,需要首先处理。


那么如何处理呢?


2. 补全空白单元格


01

匹配补全空值


如图-2,C12单元格的内容缺失,可从原始数据中匹配补全。


图-2


匹配可用Vlookup函数。Vlookup号称函数之王,各位同学可深入钻研。操作演示如下:



若有大量空白单元格,可先筛选“空白”,然后批量填充公式即可。


02

填充补全空值

如图-3,D4单元格的内容缺失,可根据绩点计算公式得出。


图-3


直接D4处输入公式:=C4/100*3,即可完成补全。这里的补全,是根据其他字段,以及计算逻辑完成的,是另一种补全思路。

本篇主讲补缺操作,将所有空白单元格,都填充了正确内容。


需要注意的是,这仅仅是完成了第一步。要想对C列求和,得到正确结果,至少还需要“删除”、“纠错”两类操作。


下一篇将介绍,数据清洗中的“删除”操作,尽情期待。


群主张宇原创

2018年05月23日


公众号:闲钓宇哥

加关注




我要推荐
转发到

友情链接