大数据平台的优势与探究

-回复 -浏览
楼主 2019-09-10 16:49:12
举报 只看此人 收藏本贴 楼主



空白

随着互联网的普及应用,人们对海量数据的挖掘和运用正呈现前所未有的深度,大数据已经成为重要的生产因素,渗透到当今的各行各业,尤其对于用技术驱动行业创新的互联网金融而言,对大数据的应用将是其未来发展的核心动力。

大数据在加强风险控制、效率提升、数据安全以及业务创新等方面起到了重要作用,通过大数据手段,能够更好地识别某类特定人群的风险,并基于对风险的精准识别和定位,提供更好的服务。



空白

大数据平台以hadoop技术核心及生态组件对数据采集、数据分析、数据挖掘及数据展现,平台通过对数据提供的智能定向、智能分析数据集市以及多端触达等能力,结合行业最先进的算法技术与思路,为实际营销业务提供有力的数据反撑保障。

数据源,针对不同数据源采用不同的接入方案:对于结构化数据,如第三方DPI数据主要通过FTP方式,通过第三方定时上传到数据源层,然后采用HDFS客户端上传到HDFS文件系统。非结构化数据如微博公众号的文本和图片,采用爬虫技术爬取数据,然后采用HDFS客户端上传到HDFS文件系统。针对实时流数据通过网站部码方式接入,存放到kafka消息中间件供计算层Storm实时计算。

数据洞察使用的数据存储在HDFS中,通过分DataBase、分TableGroup、分表、分区等方法将数据切分成方便分析处理的小块,提高脚本的执行效率。流数据处理,Locanode建立计算与索引列,使用本地计算引擎,在硬盘阵列缓存索引,Mergenode生成执行计划,把计算任务分发给本地节点并进行结果合并,同时通过zookeeper在Storm集群中协调公有数据的存放。在应用端,数据服务采用Restful风格的API,可以使用任何语言开发接口调用程序,上手简单,快捷易用。

人群数据存储部分采用Hadoop集群分布式文件系统HDFS,经由Kafka队列推送及Storm流处理,高性能的key-value数据库Redis集群。人群数据计算结合了Hadoop离线计算、Spark的批处理和Storm的流式计算。Spark内置的机器算法库MLLib主要使用分类,聚类KMeans,协同过滤树,逻辑回归等算法。媒体展现点击数据通过Kafka队列进行推送,经Storm流计算处理形成用户ID与存量人群的对应关系,存储在Redis集群,用于人群匹配和人群洞察。



空白


用户画像拓展人群,用户画像标签可以分为四类:用户兴趣标签,用户意向标签,上下文标签,受众行为标签。用户画像原始日志数据,通过ETL写入HDFS,结构化存放在Hive表中进行查询,经过标签化处理的数据存放在Redis中供RTB查询,统计报表存放在Mysql中经BI报表系统可视化显示,用户画像标签可以用于精准投放,营销决策等领域。种子用户可通过lookalike、GBDT、NLP文本挖掘算法筛选识别拓展。

大数据平台技术功能架构优势:①可视化、系统化、智能化、协同化:与传统的大数据工具平台相比,大数据管理平台具有可视化的操作界面,系统化的数据处理流程,智能化的操作导向以及协同化的作业平台。②面向数据流的架构:基于既定的业务逻辑,平台定义相应的数据处理流程,并自动生成底层技术架构,将业务语言转化为大数据处理语言。③数据流程管理:融合了数据流程管理的思想,将业务各个环节和相互之间的关系,映射成数据集、数据关系和处理逻辑的管理,通过对数据流程的创建、组合、调度和监控,将业务流程管理化转为数据流程管理。④企业服务总线:采用企业服务总线理念,支持热插拔的方式灵活集成各种异构系统及数据服务。

核心数据处理优势:①海量数据聚合:先进的分布式架构,可以抓取海量的数据资源,消除单点抓取瓶颈。集群的日抓取能力达到数亿以上。②智能化调度:智能的调度机制,可以自动调整抓取周期,优先抓取更新频繁的数据源,并且支持增量抓取,最大程度的避免浪费资源,提升聚合效率。③可视化操作:通过可视化操作,即可完成聚合的配置,不需要专业的技能也能方便的获取数据,降低使用门槛。④异构数据整合:整合各个渠道用户数据,形成体系化、可视化、可操作的用户数据管理平台。⑤多种类标签生产:强大的计算能力,将企业一方数据生产成统计类、算法类等标签,同时接入文本类模型类标签。⑥价值挖掘:深入挖掘一方用户数据,用专业的大数据技术了解用户的实际价值,用真实、直观的数据,增强拓展市场的能力。⑦应用拓展:建立标准的企业用户标签体系,支撑企业基于标签的各种应用,快速实现企业向“运营用户”的转型。⑧数据安全:用户数据标签化,管理维护及应用流程化、标准化,保障企业数据安全性,真正实现数据流通。



大数据平台具有安全性、稳定性、易用性、开放性、低成本、可用性、可运维、高性能的综合优势,信和财富正在打造独具优势的大数据平台,聚合内部、外部、合作伙伴的海量数据资源,提升信和财富全平台对消费者的洞察分析能力,全面驱动企业各项业务的协同发展。

信和研究院

智力于打造金融科技

领域高影响力智库组织

微信号:CH-Research

长按二维码关注



我要推荐
转发到