大数据和云计算技术周报(第29期)

-回复 -浏览
楼主 2018-12-05 13:42:15
举报 只看此人 收藏本贴 楼主
写在第29期周报


“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。


本期会给大家奉献上精彩的:Apache Hadoop Yarn、HDFS、spark异步并发、Hadoop3 YARN、分布式系统、大数据发展、理论数学、分布式的CAP。全是干货,希望大家喜欢!!!


#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!


#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。


特别提醒,文末有惊喜!


以下是正文,限于众编辑水平有限,不保证大家都喜欢。

1
Apache Hadoop Yarn

 Apache Hadoop Yarn 做为一个大数据领域(Apache Hadoop Yarn)通用的资源管理平台而闻名,它提供复杂的集群资源管理和调度服务,从中高度抽象出通用业务逻辑,从而让更多的计算框架专注于计算本身,通过他提供的高度抽象的接口,轻松的运行任务在YARN中。

http://www.itweet.cn/blog/2018/02/01/first-class-support-long-running-services-apache-hadoop-yarn

2
HDFS

 文章以故事场景的形式讲解HDFS的诞生过程,从一开始的数据量增长解决到使用分布式存储方式,读写文件,面临的问题及解决方法过程.

http://mp.weixin.qq.com/s/x73Z-bBXXibbPvmMPxzwwQ


3
spark异步并发

 Apache Spark 的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与 Hadoop 2.0(包括 YARN 和MapReduce)是一致的。Hadoop 2.0 自己实现了类似 Actor 的异步并发模型,实现方式是 epoll+状态机,而 Apache Spark 则直接采用了开源软件Akka,该软件实现了 Actor 模型,性能非常高。尽管二者在 server 端采用了一致的并发模型,但在任务级别(特指 Spark 任务和 MapReduce 任务)上却采用了不同的并行机制:Hadoop MapReduce 采用了多进程模型,而Spark 采用了多线程模型;本文详细的给大家介绍一下spark on      yarn 与spark on yarn的区别!

http://blog.csdn.net/yqlakers/article/details/72818247

4
Hadoop3 YARN

 Hadoop YARN可以实现CPU和内存等资源的共享与隔离,方便我们对集群实现统一管理。但是YARN由于不支持I / O资源管理和隔离,经常导致某些任务的相互竞争,I / O瓶颈致使某些业务运行时间无故延长。 本文档重点介绍磁盘I / O资源调度,并提供I / O资源调度和隔离的解决方案。

http://www.aboutyun.com/forum.php?mod=viewthread&tid=23819&extra=page%3D1

5
分布式系统

 分布式系统的运维挑战中容器、Severless编程方式的诞生极大的提升了软件交付与部署的效率,在架构的演化过程中,可以看到两个变化。应用架构开始从单体系统逐渐转变为微服务,其中的业务逻辑随之而来的就会成为微服务之间的调度与请求。

http://mp.weixin.qq.com/s/WrU3TUGs3amxXcJLocQ9rg


6
大数据发展

李克*明确提出:“发展壮大新动能。做大做强新兴产业集群,实施大数据发展行动,加强新一代人工智能研发应用,在医疗、养老、教育、文化、体育等多领域推进‘互联网+’。发展智能产业,拓展智能生活

https://mp.weixin.qq.com/s/Nkb81SHp8OSc9I_vKl_jgQ

 

7
理论数学

理论数学是人类思维游戏活动的陷阱。如果作为游戏活动,对于启发智力是具有极大的帮助,但也难免具有一些负面影响;如果作为混饭吃的职业也是可以的,但也容易误人子弟;如果作为事业,那将是对人们的极大误导。现在仍然有大批的数学家们在津津乐道的从事这种游戏活动,岂不知宝贵的生命时间被残酷的牺牲。 

http://mp.weixin.qq.com/s/F731FJ9HpA_Q-8uOKHIhXg

 

8
分布式的CAP

对于多数大型互联网应用的场景,主机众多、部署分散,而且现在的集群规模越来越大,所以节点故障、网络故障是常态,而且要保证服务可用性达到N个9,即保证P和A,舍弃C(退而求其次保证最终一致性)。虽然某些地方会影响客户体验,但没达到造成用户流程的严重程度。

对于涉及到钱财这样不能有一丝让步的场景,C必须保证。

http://mp.weixin.qq.com/s/ZTGDdF9wgwJ-K30G9rW5Bw


009
开心一刻

 我是一个程序猿,一天我坐在路边一边喝水一边苦苦检查bug,这时一个乞丐在我边上坐下了,开始要饭,我觉得他可怜,就给了他一块钱,然后接着调试程序。他可能生意不好,就无聊的看看我在干什么,然后过了一会,他幽幽说,这里少了一个分号。

我惊奇的问:“你也懂这行啊” 乞丐说:“我以前就是做这个的。”


 

 

致谢:

薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、魏宏斌



猜你喜欢




#大数据和云计算机技术社区#博客精选(2017)

NoSQL 还是 SQL ?这一篇讲清楚

阿里的OceanBase解密

#大数据和云计算技术#: "四有"社区介绍

大数据和云计算技术周报(第28期):NoSQL特辑

大数据和云计算技术周报(第27期)

新数仓系列:Hbase周边生态梳理(1)

《大数据架构详解》第2次修订说明

简单梳理跨数据中心数据库

云观察系列:漫谈运营商公有云发展史

云观察系列:百度云的一波三折

云观察系列:阿里云战略观察

超融合方案分析系列(7)思科超融合方案分析

加入技术讨论群




《大数据和云计算技术》社区群人数已经3000+,欢迎大家加下面助手微信,拉大家进群,自由交流。

喜欢钉钉扫码下面的群:


喜欢QQ群的,可以扫描下面二维码:

欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过88+):





我要推荐
转发到

友情链接