让你彻底明白什么是大数据

-回复 -浏览
楼主 2019-10-08 16:34:10
举报 只看此人 收藏本贴 楼主


尽管“大数据”这个词直到最近才受到人们的高度关注,但早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为 “第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。


现在互联网圈和各行各业整天都在谈“大数据”,可什么是“大数据”呢?每个人都有不同的理解,所以下面就拿出维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,大数据具有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。


《大数据时代》的作者维克托·迈尔·舍恩伯格解释:了解什么是“大数据”的定义非常关键。首先要明确的是,“大数据”并不是很大或者很多数据。根据维克托在书中的描述,“大数据”并不是一部分数据样本,而是关于某个现象的所有数据。第二点,由于掌握了关于某个现象的所有数据,那么在统计时就能接受更多不准确的信息。第三,“大数据”的分析着重在了解“什么”而不是“为什么”。比如人们可以通过各种相关数据来了解未来将会发生什么,而不是这些事情发生的原因。要探寻原因会更难,很多时候,知道会发生什么已经足够了。以上这些就是“大数据”的核心,有足够多的数据,允许数据中存在不准确的信息和不去探寻事件发生的原因而是探寻会发生什么事件。维克托·迈尔-舍恩伯格和肯尼斯·克耶编写的《大数据时代》中提出:“大数据”的4V特点:Volume(数据量大)、Velocity(输入和处理速度快)、Variety(数据多样性)、Value(价值密度低)。这些特点基本上得到了大家的认可,凡提到“大数据”特点的文章,基本上采用了这4个特点。


从定义我们就知道了,由于海量巨量价值密度低的数据、多样混杂且高速地瞬时汇合过来,无法用单台的计算机进行处理,必须依赖新的计算技术架构和算法来解决。


自从有了云计算服务器,“大数据”才有了可以运行的轨道,才可以实现其真正的价值。有人就形象地将各种“大数据”的应用比作一辆辆“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算。最著名的实例就是Google搜索引擎。面对海量Web数据,Google首先提出云计算的概念。支撑Google内部各种“大数据”应用的,正是Google公司自行研发的云计算服务器。

大数据算法的起源:Google File System、MapReuce以及Bigtable

  • 1.按时间算第一篇的论文2003年公布的 Google File System,这是一个分布式文件系统。从根本上说:文件被分割成很多块,使用冗余的方式储存于商用机器集群上。

  • 2.紧随其后的就是2004年被公布的 MapReduce,而今MapReuce基本上已经代表了大数据。传说中,Google使用它计算他们的搜索索引。而其工作模式应该是:Google把所有抓取的页面都放置于他们的集群上,并且每天都使用MapReduce来重算。

  • 3.Bigtable发布于2006年,启发了无数的NoSQL数据库,比如:Cassandra、HBase等等。Cassandra架构中有一半是模仿Bigtable,包括了数据模型、SSTables以及提前写日志(另一半是模仿Amazon的Dynamo数据库,使用点对点集群模式)。


依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。采用分布式架构,对海量数据进行分布式数据挖掘。大数据最核心的价值就是在于对于海量数据进行存储和分析。

在开源领域中,Hadoop可算是大名鼎鼎。Hadoop是由Apache软件基金会管理的一个项目,包含由谷歌驱动的、用于构建整合、组合和了解数据的平台的技术。


Hadoop系列技术是专门为海量数据处理而进行设计的,IT行业的顶级企业参与了贡献和相关技术的贡献,在生态圈上具有完善的一套体系,所以各种需求都能够基本满足。相较于其余的分布式技术,Hadoop则更加优秀。


从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapReduce技术的高性能并行数据处理服务。这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。


HDFS通过三个重要的角色来进行文件系统的管理:NameNode、DataNode和Client。


NameNode可以看做是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的 Metadata存储在内存中,这些信息主要包括文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode中的信息等。


DataNode是文件存储的基本单元,它将文件块(Block)存储在本地文件系统中,保存了所有Block的Metadata,同时周期性地将所有存在的 Block信息发送给NameNode。


Client就是需要获取分布式文件系统文件的应用程序。


MapReduce的思想就是“分而治之”。Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。


“简单的任务”包含三层含义:

一是数据或计算的规模相对原任务要大大缩小;

二是就近计算原则,即任务会分配到存放着所需数据的节点上进行计算;

三是这些小任务可以并行计算,彼此间几乎没有依赖关系。

Reducer负责对map阶段的结果进行汇总。


Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词,一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。因此,对于MapReduce,可以简洁地认为,它是一个软件框架,海量数据是它的“菜”,它在大规模集群上以一种可靠且容错的方式并行地“烹饪这道菜”。让人由衷地感叹思想之伟大,分解之神奇,合并之巧妙。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。


大数据实质上是全面、混杂的并且具有数据量大、输入和处理速度快、数据多样性、价值密度低特点的数据。

大数据处理流程

数据采集:数据抽取(ETL)工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集合中,成为联机分析处理、数据挖掘的基础。


数据存取:关系数据库、NoSQL、SQL等。


基础架构:云存储、分布式文件存储等。


数据处理:自然语言处理(NLP,Natural Language Processing)和人工智能(AI, Artificial Intelligence)。


统计分析:假设检验、显著性检验、差异分析、相关分析方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析等。


数据挖掘:分类、估计、预测、相关性分组或关联规则、聚类(Clustering)、描述和可视化、复杂数据类型挖掘 模型预测:预测模型、机器学习、建模仿真。 结果呈现:云计算、标签云、关系图等。


大数据实质上是全面、混杂的并且具有数据量大、输入和处理速度快、数据多样性、价值密度低特点的数据。大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。


大数据涉及的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。


大数据的分析方法

1. 可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。


2. 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点。


3. 预测性分析。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。


4. 语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。


5.数据质量和数据管理。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。


最早提出大数据时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

大数据研究是跨学科的研究,可以发展为一门新型交叉学科。这项研究不仅与自然科学有关,还涉及心理学、经济学、社会学等社会科学。探讨网络数据的产生、扩散的基本机制,就需要从社会、经济和技术层面探讨网络数据涌现的规律与价值度量方法。应积极鼓励开展交叉科学研究和改变科研的组织结构和合作形式。


开展数据密集型研究需要改变科研的组织结构和合作形式,形成有利于协作创新的“知识生态系统”,强调个人在单学科领域学术成就的“个人化科研范式”不再适合大数据研究,行会文化和过分细分的专业化教育是推广大数据研究的阻力。所涉及的数据量规模巨大到无法通过人工在合理时间内完成信息的采集、处理、管理,并将其整理成为人类所能解读的信息。当今世界经济中,企业为了发现新的盈利长机会,更加依赖来自消费者的喜好和见解。在发现和挖掘这些喜好和见解的过程中,产生数量巨大、结构复杂、类型众多的数据,这些数据通过集成共享,交叉复用,成为有价值的经济信息资源,形成一种智力资源和知识服务能力。


如果说互联网的关键技术在于“包交换”,核心在于“连接”的话。那么大数据的关键技术在于“块存储”,核心在于“关联”。在多维度上进行全息的数据还原,突破孤立的单点存在,关联不同纬度的客观存在,呈现一个全然不同的未来,让美好在先知先觉中遇见。

我要推荐
转发到