浅谈大数据与云计算的关系

-回复 -浏览
楼主 2018-12-05 13:33:13
举报 只看此人 收藏本贴 楼主

                       

随着信息技术的飞速发展,人类社会已经步入了大数据时代,大数据技术已经在各行各业发挥了积极的作用,可以说大数据与我们的生活息息相关。与此同时,很多人会疑惑:大数据和云计算是一回事吗?有什么区别吗?

在这里,我们将对大数据与云计算及两者之间的关系进行阐述,并就两者对运营商带来的机遇与挑战进行探讨。



1.    云计算

1.1云计算概念和特点

首先,什么是云计算呢?云计算有长、短两种定义。长定义是:云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算能力、存储空间和信息服务。短定义是:云计算是通过网络按需提供可动态伸缩的廉价计算服务。

从云计算现状上看,云计算具有以下特点:

(1)      超大规模。“云”具有超大的规模,比如云计算最大的使用者——谷歌,已经拥有上百万台服务器,亚马逊、IBM、微软、Yahoo、阿里、百度和腾讯等公司的均拥有几十万台服务器。

(2)      虚拟化。云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”,它不是固定的实体。应用在“云”中某处运行,实际上用户无需知道应用运行的具体位置。

(3)      高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性。

(4)      通用性。同一片“云”可以支撑不同的应用同时运行,不针对特定应用。

(5)      高可伸缩性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。

(6)      按需服务。“云”是一个庞大的资源池,用户按需购买,像自来水、电那样计费。

(7)      极其廉价。“云”的特殊容错措施使得可以采用极其廉价的节点来构成云;的自动化管理使数据中心管理成本大幅降低;“云”的公用性和通用性使资源的利用率大幅提升;“云”设施可以建在电力资源丰富的地区,从而大幅降低能源成本。因此“云”具有前所未有的性价比。


1.2云计算服务模式

云计算典型服务模式有三种:基础设施即服务(Infrastructure as a Service, IaaS)、平台即服务(Platform as aService, PaaS)和软件即服务(Software as a Service, SaaS)。

(1)      IaaS

IaaS将硬件设备等基础资源封装成服务供用户使用,如著名的亚马逊云计算AWS的弹性计算云EC2和简单存储服务S3。在IaaS环境中,用户相当于在使用裸机和磁盘。IaaS最大的优势在于它允许用户动态申请或释放节点,按使用量计费。

(2)      PaaS

PaaS对资源的抽象层次更进一步,它提供用户应用程序的运行环境,典型的如Google App EnginePaaS自身负责资源的动态扩展和容错管理,用户应用程序不必过多考虑节点间的配合问题。但与此同时,用户的自主权降低,必须使用特定的编程环境并遵照特定的编程模型。

(3)      SaaS

SaaS的针对性更强,它将某些特定应用软件功能封装成服务,它只提供某些专门用途的服务供应用调用,如Salesforce公司提供的在线客户关系管理CRM服务。


2.    大数据

2.1大数据概念和特点

上面简要介绍了云计算,那么什么是大数据呢?大数据的定义有很多,维基百科上的定义是:海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。

目前,业界普遍认为大数据具有4V+1C的特征,即数据量大(Volume)、数据来源和格式多样(Variety)、数据增长速度快(Velocity)、价值密度低(Value)和数据处理复杂(Complexity)。


2.2大数据关键技术

当我们提到大数据的时候,都会提到Google。就像提到哲学的时候,大多会提到希腊一样。讲到大数据不提Google,就有点感觉不是正宗做大数据的。我们聊大数据,常挂嘴边的就是Google的三驾马车,即GFSGoogle File System)、MapReduceBigTable。这些东西在开源的世界里的代表分别是HDFSHadoop Distributed File System),MapReduceHBaseHDFS解决了大数据分布式存储的问题,MapReduce解决了大数据分布式计算的问题,这两者也构成了Hadoop技术的核心。另外,HBase解决了随机访问超级大表的问题,它可以通过水平扩展的方式,利用廉价计算机集群,处理由超过10亿行和数百万列元素组成的数据表。


以分布式文件系统HDFSHadoop Distributed File System)和MapReduce为技术核心的Hadoop,是Apache软件基金会旗下的一个开源分布式计算平台,其系统的底层细节对用户是透明的。Hadoop已经被公认为业界大数据标准开源软件,它能在分布式环境下提供海量数据的处理能力。几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等都支持Hadoop。因此,以Hadoop为核心的Hadoop生态系统逐渐成熟,如上图所示。

针对上图中的各个组件,关于其简要功能介绍,请见下表。


  实际上,在企业的生产环境中,企业会根据不同的业务需要,来使用不同的大数据组件。通常,企业中大数据处理主要包括三种类型:

(1)      复杂的批量数据处理:通常数据处理的时间跨度在数十分钟到数小时之间。

此种场景下,可以采用MapReduce来解决问题。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map函数和Reduce函数。对于程序员来说,编写MapReduce程序是相对容易的,因为程序员不需要关心分布式并行编程的细节,MapReduce已经很好的解决了这个问题,程序员可以很容易的把自己的程序运行在分布式系统上,完成海量数据的计算。

(2)      基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间。

此种场景下,可以用Impala来实现。Impala是由Cloudera公司开发的新型分布式数据库,它提供SQL语义,能查询存储在Hadoop HDFSHBase上的PB级巨量数据,Impala是基于内存进行查询计算的,在性能上比Hive高出3~30倍。

(3)      基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间。

此种应用场景下,可以用Storm来实现。以前只有政府机构和金融机构能够通过昂贵的定制系统,来满足流数据实时分析计算需求。Twitter Storm的开源,改变了这个情况,现在可以快速低成本搭建起实时流处理系统了。Twitter开发Storm流处理框架也是为了应对其不断增长的流数据实时处理需求。

上图是Twitter公司的分层数据处理架构。Twitter Storm对于实时计算的意义类似于Hadoop对于批处理的意义,Storm可以简单、高效、可靠地处理流数据,时间响应在毫秒级。

在大数据众多组件当中,我们在这里仅以MapReduceImpalaStorm为例,阐述了其在企业中的应用场景。关于其他组件,大家可以自行研究和探讨。


3.    大数据与云计算的关系

3.1大数据与云计算的联系

在中国大数据专家委员会成立大会上,委员会主任怀进鹏院士用一个公式描述了大数据与云计算的关系:G=f(x)x是大数据,f是云计算,G是我们的目标。也就是说,云计算是处理大数据的手段,大数据与云计算是一枚硬币的正反面。大数据是需求,云计算是手段。

大数据与云计算都是为数据处理和存储服务的,都需要占用大量的计算和存储资源,因而两者都需要海量数据存储技术HDFS、海量数据处理技术MapReduce等分布式并行处理技术。

从所使用的技术上来看,大数据技术可以看做是云计算技术的延伸。云计算能为大数据提供强大的计算和存储能力,而来自大数据的业务需求,则为云计算找到了更好的用武之地。大数据与云计算的结合,使得两者都发挥了最大的优势。


3.2大数据与云计算的区别

然而,大数据和云计算也有诸多区别。

(1)      背景不同

大数据产生的背景是,现有的数据处理技术不能有效处理海量数据,但这些海量数据存在很大价值。

云计算产生的背景是,基于互联网的相关服务日益丰富和频繁,通过互联网来提供动态、易扩展、廉价、高性能的虚拟化资源给企业和个人,已经变成了行业痛点。

(2)      目的不同

大数据的目的是充分挖掘海量数据中的信息;云计算目的是通过互联网更好地调用、扩展、管理计算及存储方面的资源和能力。

(3)      对象不同

大数据的处理对象是数据,云计算的处理对象是IT资源、能力、应用。

(4)      推动力量不同

大数据技术的推动力量是从事大数据存储和处理的软件厂商,以及拥有海量数据的企业;云计算技术的推动力量是生产计算和存储设备的厂商,以及拥有计算和存储资源的企业。

(5)      带来的价值不同

大数据能挖掘出海量数据中的价值;云计算则能节省IT部署成本。


4.    大数据与云计算给运营商带来的机遇与挑战

4.1提升网络质量

随着移动互联网的飞速发展,以及智能终端的快速普及,运营商的网络变得愈加繁忙。因此,运营商的网络数据也在快速增长。利用大数据和云计算强大的数据处理能力,可以快速挖掘网络运维数据和信令数据中的价值信息,以对网络进行及时监控,预测网络流量峰值,及时发现网络异常,精准定位并解决网络问题,从而提升网络质量。


4.2挖掘价值用户

运营商通过对市场相关部门和网络相关部门的数据进行整合,利用大数据技术手段,从多种不同维度精准刻画客户形象,即用户画像,以此寻找价值客户,制定有针对性的商业策略,提升用户价值。


4.3提升行业信息化水平

当前,运营商针对教育、医疗、交通、环保等行业的信息化服务,虽然能够提供一揽子解决方案,但主要还是提供终端和通信管道,并未对行业数据进行深加工。运营商如果能把大数据技术整合到行业信息化方案中,帮助行业用户通过数据采集、存储、分析,更好地进行科学决策,将能极大提升我国各行业信息化水平。


4.4大数据和云计算带来的风险和挑战

大数据和云计算给运营商带来前所未有机遇的同时,也带来了风险和挑战。其中之一就是大数据安全问题。运营商如何能保证用户隐私数据和其他敏感数据安全、不泄露,将是运营商运用大数据和云计算开启数据时代大门的前提,这也将是大数据和云计算在未来发展过程中的一个重要议题。



获取更多内容,欢迎关注本公众号。

本内容为中国联通网研院大数据独家提供,我们将定期分享大数据领域的前沿动态和创新理念,如需转载或合作,请与bigdata_server@163.com或微信号chengxz01联系。


我要推荐
转发到

友情链接