时间: 2015年4月23~25日
地点: 北京·国际会议中心

专题: 新兴大数据处理技术与工具

Day of week:

Hadoop之后,又有哪些值得关注的大数据处理工具?

专题出品人:
高亮
百度大数据部研发副总监

在百度长期负责和PC搜索,PC变现和移动变现相关的研发&质量保证工作,现为百度大数据部研发负责人。


by 连城
Databricks软件工程师

Catalyst是Spark SQL中的一套函数式关系查询优化框架。传统上认为查询优化器是关系型数据库最为复杂的核心组件。在Catalyst的帮助下,Spark SQL的开发者们只需编写极为精简直观的申明式代码即可实现各种复杂的查询优化策略,从而大大降低了Spark SQL查询优化器的开发复杂度,也加快了项目整体的迭代速度。

本演讲将Catalyst中最为关键的TreeNode和Rule结构提炼出来,...


by 郭瑞杰
阿里巴巴高级搜索研发专家

搜索是各类网站和数据类APP的标配功能。目前开发者一般基于开源搜索系统,例如ElasticSearch、Solr、Sphinx等自己搭建搜索服务,系统定制、开发和维护成本都非常高。云搜索是一种结构化数据搜索托管服务,开发者将数据上传至云端,云端进行数据处理和索引构建,开发者再通过API使用云端搜索服务。云搜索极大降低了搜索服务使用门槛,也极大降低开发运维成本。开放搜索服务OpenSearch是阿里巴巴研发的一款云搜索服务,允许开发者对索引结构、数据处理、搜索相关性等做深度定制。OpenSearch底层存储基于HBase,搜索服务基于阿里巴巴自主研发的分布式实时搜索引擎平台ISearch5,该平台提供灵活的相关性计算框架,自动容错,自动伸缩和统一的业务服务层,是阿里巴巴商品搜索和全网搜索的坚强后盾,承载了阿里全集团,包括淘宝、天猫、一淘、神马搜索等主要搜索业务流量,搜索请求峰值数十万QPS。iSearch5经历了iSearch1、iSearch3.0、iSearch4.0、Kingso和问天3等多个时代,是一个从系统到平台的自然演化过程。...


by 赵健博
奇虎360系统部技术经理

未来的数据将会继续成爆炸式增长,在如此大规模的数据中,如何快速的获取到想要的数据成为一个很核心的问题。HBase提供了检索数据的功能,不过原有系统仅提供了通过rowkey检索数据的功能,过于单一,不灵活,一旦查询条件改变了往往设计到要全表扫面过滤,极大浪费机器物理资源,又达不到实时的一个效果。HBase二级索引功能解决了原有HBase系统中仅能够通过rowkey检索数据的问题,使得用户能够指定多种条件,在HBase表中进行数据的实时检索与统计。它提供了强大的数据检索功能。本次演讲主要包含两个方面:

第一,介绍一下奇虎360 HBase分布式系统二级索引功能的设计与实现

第二,将结合公司内部业务介绍一下二级索引功能在360的应用情况,以及一些性能指标。


by 钟翔
Intel大数据技术部工程师

Gearpump是一个基于Akka Actor的轻量级的实时流计算引擎。今天的流平台需要能处理来自各种移动端和物联网设备的海量数据,系统要能不间断的提供服务,对数据的处理要能做到不丢失不重复,对各种软硬件错误能平滑处理,对用户的输入要能实时响应。除了这些系统层面的需求外,用户层面的接口还要能做到丰富而灵活,一方面,平台要提供足够丰富的基础设施,能最简化应用程序的编写;另一方面,这个平台应提供具有表现力的编程API,让用户能灵活表达各种计算,并且整个系统可以定制,允许用户选择调度策略和部署环境,允许用户在不同的指标间做折中取舍,满足特定的需求。Akka Actor提供了通信、并发、隔离、容错的基础设施, Gearpump通过把抽象层次提升到Actor这一层,屏蔽了底层的细节,专注于流处理需求的本身,能更简单而又高效的解决上述问题,它的功能亮点包括:

1)实时Exactly once 的消息处理。

2)毫秒级延时。

3)高性能,每秒能处理百万甚至千万条消息。

4)基于Gossip的HA设计,无中心节点,没有单点失效。...


by 刘成
百度研发工程师

查询引擎(QueryEngine)是大数据处理的利器,极低的学习成本和高效的查询实现极大提高了数据分析的效率,将数据分析领入大数据时代。

Wing是百度自研的查询引擎,提供SQL-Like的HQL接口和以关系操作为API的C++接口。目前业界广泛使用的查询引擎Hive模块耦合较高,不易移植到其他计算框架,限制了二次开发的效率。开源界后续涌现的adhoc场景查询引擎如Impala、Spark SQL等,不得不重复实现查询处理逻辑。为满足不同场景而引入多个系统将会是很大的运维负担。因此在设计上,Wing专注于完成查询处理,与具体计算框架解耦,旨在成为查询处理的公共组件。这样,公共的查询处理能够在多个分布式计算系统上运行,如MapReduce、Spark等,运营代价随之降低。更重要的是,对Wing做的查询优化可以惠及所有计算系统,在多种查询场景下取得收益。在系统实现上,Wing参考了通用编译框架,系统分为前端语义分析、关系代数中间表示、查询优化、物理执行、元数据与存储等五个模块,各模块间实现了良好的解耦,具有强大的可扩展性。查询优化中,...


by 丁海峰
今日头条架构师

推荐系统中最核心的数据之一是 user profile 数据。我们需要从大量历史用户行为中分析和挖掘各种维度的特征,来刻画用户的兴趣偏好。这个分享中会介绍今日头条 user profile 系统的现状,面临的问题,系统演进,以及技术架构中的关键问题:

1. 如何结合 batch 计算与 streaming 计算模型,实现 user profile 的分钟级更新;

2. 如何设计 user profile 的在线存储系统,支持高吞吐、低延迟的更新和访问;

3. 如何存储海量的用户行为数据并支持不同的应用场景和访问模式。

听众受益:

1. 了解大规模推荐系统中 user profile 面临的挑战和问题,以及我们的解决思路;

2. 了解 user profile 系统设计中对存储、计算、队列等基础设施的需求,问题和方案,以及生产环境中的最佳实践。


by 闫剑锋
博士,大众点评网数据中心负责人

随着O2O概念在互联网业务中的深度应用,相关业务发展趋于细化、市场竞争趋于白热。作为在消费领域同时提供信息和交易的互联网公司,大众点评在用户流量和交易两方面的业务都趋向精细化开发和运营,这些都对大数据平台提出很高的要求,具体表现在大数据存储/计算平台、数据仓库技术和数据产品设计上的各种Trade-off,本讨论将深度分析点评数据平台在以上三个方面的业务积累和各种取舍。

听众受益:

1. 精细化业务发展和运营中,O2O对数据业务的需求和变化情况

2. 架构技术、建模技术和数据产品上的主要平衡点,以及大众点评的解决方法

3. 分析在互联网快速发展过程中,数据业务的发展趋势

演讲专题

Covering innovative topics

4月23日,星期四

  • 敏捷之后,是什么

    敏捷实践在大型组织中现在已经有哪些应用了呢?从小型团队中兴起的敏捷,到了大型组织中如何才能够取得成功呢?

  • 知名移动案例分析

    移动互联网高速发展,我们每天花在移动设备上的时间越来越多。怎么做出一款大众喜爱的应用,从众多 App 中脱颖而出?听听那些耳熟能详的 App 背后的成长故事,也许能找到答案。

  • 新时代的安全

    高危漏洞频发,隐私泄露,普通开发者该如何避免和防范;开发者如何从逻辑上避免风险?

  • 互联网金融背后的技术架构

    何为互联网金融?是互联网公司做金融业务,还是金融公司使用“云计算“,”大数据”等“时髦”技术?这些说法都不足以描述互联网金融的本质。

  • 微服务架构

    过去的一年,微服务架构在社区中讨论广泛。微服务在企业中的实践现状如何?本专题将关注它对企业计算架构的影响,以及一线互联网公司的团队是如何应对实践中的问题与挑战的。

  • 永不止步的前端

    过去一两年,在前端迅猛发展的同时,深深感觉到前端才刚刚开始。前端工程师正在演化成产品工程师,虽有迷雾,但路就在脚下,永不停息。

  • 云计算高可用架构设计与实践

    以分布式系统为基础的云平台需要对CAP原则做很好的平衡,当上层业务需要高可用支撑时,就需要对中间服务层及底层基础架构、操作系统层实现高可用,如何低成本的实现高可用就成为云平台设计的难点。本专题将以透过余额宝等金融服务的高可用服务,揭示底层的数据平台、虚拟化平台、跨数据中心的高可用架构。

4月24日,星期五

  • 可扩展、高可用架构设计

    本专题主要讨论大型复杂的互联网的架构设计、代码与运维体系。

  • 新兴大数据处理技术与工具

    Hadoop之后,又有哪些值得关注的大数据处理工具?

  • 自动化运维

    运维领域经过十多年发展,有什么海量和自动化理论实践供我们借鉴?云和开源运维管理系统的快速发展给我们的运维模式带来什么样的改变?如何在费时的质量问题分析时找到高效和巧妙的方法?

  • 云计算平台构建与应用

    云计算方兴未艾,各种技术与服务层出不穷,各种技术如何取舍?是搭建自己的云平台还是使用公有云服务?如何多快好省建设云平台,又如何在多个公有云服务中快速灵活迁移呢?了解云计算最新技术动态,行业最新内幕,应用最佳实践,就来云计算平台构建与应用专场。

  • 移动开发最佳实践

    移动互联网带来了新的一波创业潮,业务的飞速发展需要技术团队的良好支撑。面临不同时期不同量级的业务时,技术选型和策略可能会完全不同。让我们来看看业内的一些团队是怎么做的。

  • 编程语言实战

    各种不同的编程语言优劣一直是大家热议的话题,这个专题不是为了引起大家的争论,而是展示不同的编程语言在特定的场景解决了哪些问题,以实际的效果来说话,将优劣的问题留给大家来思考。

  • 云计算与大数据应用选型

    无论是云还是大数据,找到合适的解决方案、做好数据选型都是十分关键的。本专题将邀请来自主流云及大数据服务商的技术工程师,旨在帮助企业和个人充分了解主流解决方案的优势与特点,从而更好的进行技术选型。

  • 亚马逊AWS技术应用实践

    作为全球最成功的云计算服务商,亚马逊AWS在技术、功能和生态系统建设方面都有非常丰富的积累与经验。本专题将邀请亚马逊AWS的架构师及客户,分享在亚马逊AWS构建服务的实践,涉及混合云、大数据、移动应用和运维。

4月25日,星期六

  • 团队建设

    关注中小型团队如何走向成功。

  • 服务质量

    O2O潮起,“连接人与服务”成为焦点。我们邀请到一些优秀的服务平台或服务提供商,分享他们是如何针对O2O服务具有的地域性、时效性、闭环性、碎片化等特点,做好服务质量保证的。

  • 挑战全栈开发

    全栈是最近一两年里才流行起来的开发概念,代表一种新的工作模式。全栈工程师是否需要精通整个技术栈的所有技术,是精通单一领域,还是全面发展?全栈工程师在工作中要扮演什么不同的角色,工作过程究竟有何不同?

  • 思考开源

    开源的力量有目共睹,但如何应用开源、如何参与开源软件开发、如何融入和回馈开源社区、如何开源自己的软件等问题,都是很多公司的工程师非常关心的问题。这些问题的答案是什么呢?

  • 基于大数据的机器学习和数据挖掘

    该专题关注于当今最为前沿的机器学习技术, 包括深度学习, 大数据,以及个性化数据挖掘等领域。 我们将邀请该领域的资深专家, 详细介绍这些前沿技术给互联网产业带来的革命性的变化。

  • 技术创业

    在中国,技术创业是个艺术活儿——Google技术牛创业实战干货分享。

  • 移动开发平台与工具应用实践

    一款移动应用要经历从开发、测试、语音IM集成到运营监控的全生命周期,因此如何以低成本、快速的完成以上阶段就成为应用成败的关键。利用第三方开发平台或工具,开发者将以更低的成本获得全生命周期的技术支持,让开发者更专注应用的研发工作。本专场将主要分享移动应用开发过程中可使用的各种平台与工具的特点与应用实践,了解移动IM、IP电话、推送、广告系统背后的技术难点,以及详细解析第三方组件是如何解决用户数据管理、复杂网络、大并发等问题的。