如何开始学习大数据?

-回复 -浏览
楼主 2018-12-08 23:39:07
举报 只看此人 收藏本贴 楼主

如何开始学习大数据?



人们想开始学习大数据的时候,最常问我的问题是:


我应该学 Hadoop 


hadoop 是一款开源软件,主要用于分布式存储和计算,它由HDFS和MapReduce计算框架组成的,它们分别是Google的GFS和MapReduce的开源实现。由于hadoop的易用性和可扩展性,因此成为最近流行的海量数据处理框架。),分布式计算。


Kafka 是由LinkedIn开发的一个分布式基于发布/订阅的消息系统


NoSQL 泛指非关系型的数据库)还是


Spark 是一种与Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处?


而通常只有一个答案:“这取决于你究竟想做什么。


与大数据相关的工作?



1、大数据系统研发工程师:

负责大数据系统研发工作,包括大规模非结构化数据业务模型构建、大数据存储、数据库架构设计以及数据库详细设计、优化数据库构架、解决数据库中心建设设计问题。他们还负责集群的日常运作、系统的监测和配置、Hadoop与其他系统的集成。


2、大数据应用开发工程师:

负责搭建大数据应用平台、开发分析应用程序。他们熟悉工具或算法、编程、包装、优化或者部署不同的MapReduce事务。他们以大数据技术为核心,研发各种基于大数据技术的应用程序及行业解决方案。


3、大数据分析师:

运用算法来解决分析问题,并且从事数据挖掘工作。他们最大的本事就是能够让数据道出真相;此外,他们还拥有某个领域的专长,帮助开发数据产品,推动数据解决方案的不断更新。


4、数据可视化工程师:

具备良好的沟通能力与团队精神,责任心强,拥有优秀的解决问题的能力。他们负责在收集到的高质量数据中,利用图形化的工具及手段的应用,一目了然地揭示数据中的复杂信息,帮助企业更好的进行大数据应用开发,发现大数据背后的巨大财富。


大数据学习之路

核心是,大部分大数据技术都是用Java或Scala编写的。



但是别担心,如果你不想用这些语言编写代码,那么你可以选择Python或者R,因为大部分的大数据技术现在都支持Python和R。因此,你可以从上述任何一种语言开始。 建议选择Python或Java。


需要熟悉云端工作。 

需要了解一个分布式文件系统。最流行的分布式文件系统就是Hadoop分布式文件系统。在这个阶段你还可以学习一些你发现与你所在领域相关的NoSQL数据库。


我要推荐
转发到