数据挖掘知识脉络与资源整理(十一)–数据质量分析

-回复 -浏览
楼主 2019-08-16 14:37:07
举报 只看此人 收藏本贴 楼主
数据质量分析
1、
简介 
传统意义上,数据分析分两类:EDA(Exploratory Data Analysis,探索性分析)和CDA(Confirmatory Data Analysis,验证性数据分析)。EDA讲究让数据自己说话,而CDA进行分析之前一般都有预先设定的模型。
数据挖掘使用的数据常常是在我们目的还并不明确时收集的,因此,对于数据的质量我们还需要进行分析,因为着不同于统计学的实验和调查们都是抱着明确的目的去收集的数据,所以在进行数据挖掘之前我们先对数据质量进行分析
其实,数据分析和数据挖掘的重点都不在数据本身,而在于如何能够真正地解决数据运营中的实际商业问题。但是,要解决商业问题,就得让数据产生价值,就得做数据分析和数据挖掘。而在数据分析和数据挖掘之前,首先必须保证高质量的数据,完成数据质量的处理工作,即对数据的集成和处理。因此,更好的数据意味着更好的决策,否则就是GIGO-Garbage in,Garbage out所以,数据分析的前提就是要保证数据质量。
2、
分类 
主要体现在两个方面:
1)、数据质量问题的检测和纠正,
2)、使用可以适用于质量不高的数据的算法,主要包括以下几个方面:
①数据的的测量误差与收集误差:
测量误差–是在测量过程中,在某种程度上测量值与实际值不同.  
数据收集错误–是指遗漏的数据的对象和属性,或不当的包含了其他对象
②噪声与伪像:
噪声–是测量误差的的一部分,其中随机的一部分.常常可以使用信号和图形处理技术降低噪声.
伪像–指数据确定性的错误,并非随机的.
③精度与准确度:
精度–对于同一个对象,重复测量之间的接近程度.一般用重复测量数据间的标准差衡量
准确度–测量值与实际值之间的接近度.一般用重复测量的均值与真实值比较.
 ④离群点:
定义比较多,主要与噪声点的区别.离群点可以是合法合理的数据,也是我们感兴趣的一部分.
⑤缺失值:
具体的可以见下链接:http://www.ppvke.com/Blog/archives/30846
⑥不一致的值:
就是牛头不对马嘴的数据.例如身高为负数,
⑦重复性:
包括数据属性重复了,和极其相似的数据.
⑧时效性:
主要体现在获取的数据是否已经过时,能不能代表目前的情况.
⑨相关性:
数据与我们研究是主题是否相关.通常这是一个很头疼的问题.

PPV课整理文章,未经允许严禁转载


我要推荐
转发到