一份来自“大数据”的自我介绍

-回复 -浏览
楼主 2018-12-07 23:37:40
举报 只看此人 收藏本贴 楼主

 
聪明的程序猿(媛)都戳这里

各位萌妹帅锅大家好!我叫大数据,英文名字是Big Data。从2012年开始,我发现自己越来越火了,不仅是很多行业和公司都很重视我,连美国总统奥巴马也在这一年投资2亿美元来发展我。四年来,我从一开始的初来乍到、受宠若惊已经成长得越来越成熟,正在努力的造福人类。最近名声大噪的AlphaGo便是我结合海量训练数据和深度人工神经网络的杰作。也许你们当中的很多人每天都在和我打交道,很多人却还对我比较陌生。无论怎样,我想是时候认真的写一份自我介绍了。



大数据
我究竟是谁

原谅我,这个标题被搞得有点像个哲学问题(推眼镜),可是明白我究竟是谁很重要。我由巨型的数据集(Data set)组成,可是巨大的数据量已经超过了人工在合理时间内可以获取、管理、处理、并提取有用信息的能力了。于是,人类就需要借住计算机和一些专业的软件来进一步和我接触,他们通过把各个小型数据集合并后进行分析从而得出许多额外的信息和数据联系。对我来说,数据的大小和数量不是最重要的,我在乎的是大家收集、组织和如何让我发挥最大效用的方式。



大数据
我的前世今生

我也不再是没有故事的女同学(好吧,男同学也是有故事的)。给大家八卦一下我的身世吧。前面提到我在2012年迎来了人生的春天,可是早在2001年我就开始萌芽了。就在那一年,META Group (现为Gartner, Inc.) 的分析员Done Laney在一份研究报告和演讲中提出了我的3Vs特性,即Volume(量,数据大小),Velocity(速,数据输入输出速度),Variety(多变,多样性)。在2012年,Gartner Inc.进一步完善了对我的定义,他们说“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”现如今,随着海量数据的涌现,数据的真实性变得尤为重要,于是我又给自己加了一个V – Veracity (真实性)。

信息来源:McKinsey Global Institute, Twitter, Cisco, Garnter, EMC, SAS, IBM, MEPTEC, QAS


大数据
我的人生价值和发展潜质

正所谓厚积薄发,通过大家的共同努力,我正在不断的发光发热,庆幸来到人世间,自己没有白走这一遭(啧啧,再次开次哲人模式)。
 
下面给技术小白来点小科普。截止2012年,从技术角度讲人类可在合理时间内分析处理的数据集大小单位为艾字节(exabytes)。自1980年代起,现代科技可存储数据的容量每40个月即增加一倍;到2012年,全世界每天就产生多达2.5艾字节(2.5*1018字节) 的数据。据预测,到2020年,这一数字将是2012年的50倍。
 
其实在我看来,茫茫数据并不可怕,我存在的意义在于人类如何收集、分析和解读我。聪明的数据分析师通过和我打交道可以找到降低成本,减少时间,实现新产品的开发及优化,以及做出正确决策的方法。所以说,我不是一个人在战斗,强大的数据分析系统和科技人员是实现我的人生价值的好伙伴。
 
因为有价值,所以我具备很好的市场潜质。回到我的老本行,让我们用大数据来说话。从大数据应用的世界地理分布来看,

图片来源: SAS

从人类处理大数据的能力所及来看,在浩瀚的数字宇宙中,几乎近半数的被收集和储存的数据是未经保护和处理的;到今年(2016年),世界上所有大大小小的数据中心的占地面积之和将超过16,000英亩,这一面积等同于双道高速铺设5,000英里,几乎为从东京到旧金山的距离;在这海量的数据中,可以被合理收集和分析成为可能有用的数据的仅占33%;而最后进入到真正被分析阶段的数据更是少之又少,仅为0.5%。(数据来源:SAS)
 
这些技术上的挑战,对人类来说也便是潜在的机遇,我作为大数据只有被提取并派上用场了,变成人类的发展进步的结晶后才算发挥了最大的价值。



大数据
我的小伙伴

凭借强大的个人魅力,各行各业的小伙伴都被吸引进了我的朋友圈。银行金融界,教育领域,政府机关,医疗卫生行业,工厂,以及零售业等等都是我可爱的小伙伴。下面挑选邮政运输领域里的一位UPS来给你讲述一下我们的友谊。
 
UPS 所涉及业务的独特性在于源源不断的处于运动和变化中的个体和服务对象,从邮件包裹,到邮递员和派送车,直到每天面对的不同客户。作为大数据的我便存在于这位好友的工作的各个方面。通过我们之间建立的良好友谊,我不仅会反映公司每天的业务表现,同时也促成了UPS邮递车行驶路线上的改革。这个要得益于我们通力合作下的ORION (On-Road Integration Optimization and Navigation)项目,据说该项目号称是世界上最大规模的运筹学研究项目哟!ORION主要是依赖大量的地图数据从而重新配置邮递员取件和送件的时间。身为大数据的我的职业病就是喜欢用数据说话:通过ORION项目,UPS的邮递员每天可以总共少走8500万英里的路,这便节约下来了840万加仑的石油。据UPS估计,每一位邮递员每天少行驶1英里便可为公司节约3000万美元,由此可想优化路线节约下来的金额总数将是巨大的。
(数据来源:SAS)



大数据
我是如何工作的

你是不是也很艳羡我和UPS的合作呢?别急,磨刀不误砍柴工,让我先给大家介绍一下我是怎样工作的。俗话说,万事开头难,那么大家需要做的第一步便是了解如何获取我。笼统归纳一下,我来自三个主要途径:
1、流动数据 ( streaming data ):
这个应该是大家找到我的最常见的方式了,通过互联网获取数据,然后再筛选哪些是你需要的哪些是需要做深度分析的。
2、社交媒体数据 ( social media data ):此类数据是近年来兴起并迅速发展的一类,对于市场营销,销售等领域显得尤为重要。来自社交媒体的数据通常是非结构化数据(unstructured data, 指的是那些没有清晰和明显的语义结构的数据,而计算机不易处理这类数据)或半结构化数据(semistructured data),所以我的这类兄弟在在后期处理分析起来会给数据科学家们带来不小的麻烦。
3、公共来源 ( publicly available data ):
其实,我们并不是多神秘的存在,有大量的数据是对外开放的,例如美国政   府data.gov,中情局的CIA World Factbook,还有欧洲的European Union Open Data Portal。

   把我们收集过来后,便开始了从数据中提炼信息的过程:
   数据储存和预处理(scalable relational databases, Hadoop, Spark, etc.) 
   从非结构数据中提取结构数据
   系统问题(exploiting multicore, security) 
   数据分析 (machine learning, data compression, efficient algorithms)
    数据可视化,预测和决策



大数据
我的未来

这是一个我还在思考探索,也充满好奇和期待的话题。尽管我不能准确预测我的未来将会发生什么,可是我明白我的未来和人类孜孜不倦的探索和努力是分不开的。从小到大,我从人们眼前不知如何处理的过眼云烟变为了被你们收集和学习的对象,并且这个过程正变得越来越快,越来越科学。基于这样的趋势,我觉得未来应该会是更大规模数据的呈现,更高速度的运行,以及会有更科学的模型将我呈现给世界。
 
未来总是充满不确定性,也便神秘而刺激。大数据愿与你携手同行!



太阁实验室
我们的口号:有趣,有用,有效;
双项目,做实战,捅破技术那层纸
论码农的自我修养

WeChat ID: bit_tiger

长按二维码,关注我哟~


我要推荐
转发到