玩转大数据,QCon上海2016热点前瞻

-回复 -浏览
楼主 2021-07-20 11:29:39
举报 只看此人 收藏本贴 楼主

预计到2020年,全球数据总量将超过40ZB,如果不能有效地存储、管理和使用数据,将给企业带来的是巨大的成本,同时数据的玩法和应用越来越多、业务的场景越来越复杂,给数据的存储和计算等不断带来新的挑战。


在将于10月20~22日举行的QCon上海2016上,我们就准备了很多大数据方面的精彩内容,邀请了Google、Netflix、LinkedIn、Spotify、阿里巴巴、百度、腾讯、360、携程等公司的技术专家,来分享他们的实践经验。




Google工作9年,深谙广告设计与优化之道。
在线显示广告中的优化问题

在线广告是一个很大的市场,随着广告从传统媒体向互联网媒体迁移,这个市场还在快速增长。有钱的地方就有江湖,不同的角色在这个市场中采取各种手段和技术来优化自身的利益。


从广告卖方的角度来看,优化问题包括:如何在线分配广告位给不同类型的买家(如预购买买家、即时买家);如何平稳投放给预购买买家的流量;如何最大化出售给即时买家的广告位的收益。


从广告买方的角度,优化问题包括:各种率,如点击率、转化率的预测;作弊流量的检测;对有限预算的买家如何平稳分配预算;用户体验的预测;重复流量的检测;广告形式的轮转;系统反应时间的优化。


演讲中将具体分析。






Spotify广告工程技术总监,负责Spotify的广告基础设施、多平台广告产品和广告优化。
Spotify广告系统架构演进

在产品高速成长的公司中,随着技术的改进,系统的持续演进是不可避免的。产品和业务需求也不断演进,规模的变化又会影响运营成本。近年来,Spotify的广告系统经历了几次大的变化。对Spotify的广告技术栈而言,性能是刚需——要做到大规模、高可用、低延迟。任何宕机或业务中断都会直接影响收入。随着新兴消费平台的兴起,后端和数据基础设施技术也已经成熟,Spotify的产品也有很多改进。广告技术系统的需求也在变化。Kinshuk将在演讲中分享保证日常服务不中断的前提下改进Spotify广告系统的经验。






Netflix Real-time Data Infrastructure组架构师。
打造万亿级别的数据流水线

演讲将介绍Netflix数据流水线过去几年的演化之路,深入探讨新的Keystone数据流水线的架构和一些设计抉择,分享Keystone在实战中遇到的问题和得到的教训,并浅谈对Keystone未来的一些想法。






LinkedIn的Kafka生态平台设计和开发的主要参与者。
使用Apache Kafka进行关键业务消息传输

Kafka 作为高可用的分布式消息系统对消息内容和格式是完全开放的。这使得Kafka可以被用作各种应用之间和内部的消息传输。LinkedIn最近利用了Kafka进行内部NoSql数据库Espresso的内部冗余数据备份。在这个过程中,我们解决了许多具有挑战性的问题。这些问题涉及到消息传输的可靠性和完整性,性能和延迟优化,数据安全性以及超大消息的处理等。这些问题的解决对于利用 Kafka 来进行关键业务的数据传输是至关重要的。演讲中会对我们的解决方案进行总结和分享。






负责广告后台服务、算法和数据的研发工作,在计算广告领域有多年的经验。
腾讯合约广告引擎与算法实践

合约广告是品牌类展示广告的主要模式,在腾讯视频、腾讯新闻 APP 和腾讯网等腾讯媒体中的合约广告收入已达百亿规模。广告引擎与数据算法对合约广告的变现效率具有重大影响,面临着很多有特色的挑战,如库存预估、广告在线投放算法、广告售卖库存分配等。


本次分享讲介绍腾讯合约广告引擎与算法的创新与实践,包括系统架构,核心算法 ,合约广告的程序化购买等。






百度外卖高级研究员,技术委员会主席。在百度外卖愿意负责物流调度、个性化推荐、智能营销和画像建模等多个技术方向。

外卖物流配送的大数据创新实践

餐饮 O2O 行业连接线上线下的订餐需求,将传统的到店消费模式改造成更加灵活便捷的到家消费模式,极大降低了用户的消费成本和商户的固定成本。外卖平台在这里扮演角色除了促进线上需求向线下转化,也包括达成订单的最后一公里任务——物流配送。高效的物流配送能力是决定外卖平台商业模式成败的关键,也是 O2O 经济区别于传统经济的根本,即运用大数据相关的云计算、深度学习和可视化技术提升行业效率,创造并满足新的民生需求。本次分享深入介绍了百度外卖物流调度系统应用大数据技术,摸索业务规律的过程和创新实践经验。






多年数据研发经验,参与过阿里集团的登月计划、公共层建立等多个重大项目。

阿里巴巴的数据研发体系是如何建立和管理的

数据研发经常会遇到这些问题:


  1. 研发人数较多(超千人),频繁上下线,如何解决开发效率的问题?

  2. 业务高速发展,数据量爆炸式的增长,如何有效控制存储与计算的线性增长?

  3. 从数据采集到数据消费的整个链路非常复杂,如何保障整个数据链路的质量与产出时间?

  4. 大数据建设的标准规范,如何制定并有效的执行?

  5. 数据浩瀚如烟、纷繁复杂,如何能够迅速的找到自己想要的数据?


经过几年的摸索,我们通过 OneData 研发体系能够比较有效的解决上述问题。OneData 定位是:一个指标一个算法,一个维度属性只有一个名字,模型规范化,从算法定义、数据研发到数据服务,可管理追溯从而规避重复建设。






在分布式网络服务器架构与计算、大规模系统性能调优等方面积累了大量实践经验,目前负责360核心安全业务线的云引擎服务团队。

如何打造一个百万亿级的日志搜索引擎:Poseidon

Poseidon系统是一个日志搜索平台,可以在百万亿条、100PB大小的日志数据中快速分析和检索。360公司是一家安全公司,在追踪 APT(高级持续威胁)事件,经常需要在海量的历史日志数据中检索某些信息,例如某个恶意样本在某个时间段内的活动情况。在 Poseidon 系统出现之前,都是写 Map/Reduce 计算任务在 Hadoop 集群中做计算,一次任务所需的计算时间从数小时到数天不等,大大制约了 APT 事件的追踪效率。Poseidon 系统就是解决这个需求,能在数百万亿条规模的数据集中找出我们需要的数据,只需要花费几秒钟时间,大大提高工作效率;同时,数据不需要额外存储,节省了大量存储和计算资源。该系统可以应用于任何海量(从万亿到千万亿规模)的查询检索需求。




感兴趣的读者可以点击“阅读原文”,了解详细日程。


8折优惠最后一周,马上抢票吧!


我要推荐
转发到