时间: 2015年4月23~25日
地点: 北京·国际会议中心

专题: 自动化运维

Day of week:

中国互联网行业经过十多年的蓬勃发展,到今天形成了从巨头到中小企业近百家上市公司,还有大量创业公司并存的繁荣景象,而运维领域经过十多年的发展,随着服务器和流量规模的快速攀升 。在海量技术运营方面不断的探索和突破,形成了很多可供参考的成熟海量运营案例和方法论;开源软件领域也从之前的偏重生产系统的软件如mysql apache等发展到越来越都得偏重综合运维管理的解 决方案如docker甚至开源云平台等;同时,效率提升的背景下,当我们更加关注质量时也发现运维会受到一些丢包一两个,一查一下午等质量改进问题的困扰。本话题试图在这些方面,为大家找一些 业内成熟案例和探索供大家学习和参考。

专题出品人:
赵建春
腾讯 社交网络运营部助理总经理

腾讯T4专家工程师,社交网络运营部助理总经理,技术运营通道顾问。04年大学毕业后加入腾讯,先后参与过交友、音乐、贺卡、QQ空间等业务的开发。06年后和团队一起专注于技术运维,负责腾讯社交网络事业群社区类WEB业务的运维和建设工作至今。经历了业务规模从数十台设备到数万台设备的快速发展历程。过程中Coati在运维环境标准化,业务Set化,运维自动化及多地分布式部署、内部云建设等方面积累了丰富的实战经验。


by 罗韩梅
腾讯数据平台部高级工程师

作为底层的资源调度平台,Gaia(盖娅)能够让应用开发者像使用一台超级计算机一样使用整个集群,极大地简化了资源管理逻辑。Gaia提供高并发任务调度和资源管理,实现集群共享,具有高度可伸缩性和可靠性,能够支持MR等离线业务,甚至是实时计算、在线service业务。通过一系列的优化,Gaia可以支持到单cluster万台规模,毫秒级的作业下发效率以及更加完善的资源管理,同时,我们引入了弹性内存管理,增加了网络和磁盘带宽管理。

Docker轻量、可移植、跨平台的特性将彻底改变程序的交付方式,并充分释放了虚拟化的威力,大有掀起一场容器革命之势。云计算、大数据经常意味着需要调动数据中心大量的资源,如何能够快速的匹配合适资源,需要一个聪明的“大脑”——Gaia。通过Docker on Gaia实现的Docker 云,将会让Docker的能量发挥到极致。


by 陆川
百度系统部高级项目经理

一、主题摘要:

1.背景(数据中心自动化的定义(机器运维、网络运维,不包含业务运维,如apache、mysql),百度数据中心规模发展(几千台——数十万台))

2.百度数据中心自动化运营平台发展历程(流程系统->半自动->全自动)

3.百度数据中心自动化运营平台架构设计(资源管理平台、自动化平台、配置管理数据、监控平台、数据统计分析平台)

4.百度数据中心自动化运营平台未来发展(简化、开放、大数据分析)

二、听众受益:

1.了解超大型互联网公司数据中心自动化运营平台的发展历程,有助于中大型互联网公司平台研发团队开拓思路,少走弯路;

2.了解大规模数据中心自动化运营平台、存在的问题和解决方案;

3.了解数据中心自动化运营平台如何为公司、业务创造价值;

4.了解数据中心自动化运营平台未来发展的趋势。


by 崔华
赶集网高级技术经理、自动化运维专家

面对乱象丛生的开发模式,面对复杂多变的业务场景,面对众 多纷杂的系统平台,赶集运维挑战重重;

从无到有,从小到大,由分散到整合,由无序到流程。。。还有我们正在由工具走向平台化的今天;

我们经历了重构甚至推翻重搞,经历了数不清的从黎明到黑暗, 又从黑暗到黎明, 经历了用户的无数吐槽与点赞,经历了太多太多。

如何目睹起飞的过程? 如何清晰地看到那一轮明月?

希望能够通过这些“经历”来和大家一起分享“赶集阿波罗平台”的前身今世,以及我们规划建造这个“飞船”时 遇到的坑和得到的赞。


by 萧田国
北京触控科技有限公司运维总监

我们那么的努力,为什么业务部门对运维的评价往往没预期的好?运维人员应该怎么做,才能获得更多认可?运维人员更愿意关注个人技术能力的提升,及认为给公司带来了多大的价值,往往忽略了怎样更专业的做事情,以达到甚至超越公司和业务部门的期望,摘取个人和团队的”组织成果“。

本主题试图从业务部门的角度观察和审视运维,基于演讲嘉宾多年一线运维经验及管理学方法,侧重解决三个问题:即什么是专业运维(公司需要怎样的运维),为什么难以做到,及怎样专业化运维。希望引发大家思考,并有所裨益。


by 王关胜
新浪微博平台 运维架构师

11年初,新浪微博进入快速发展期,同时也开启平台化的进程,服务器设备,及人力成本大量增加。业务的快速发展,让我们意识到运维自动化的必要。因此本次主题主要分享,近3年来微博平台在运维自动化上的一些尝试及系统建设。

主题内容包括不限于以下几部分:

1)介绍自动化运维的发展概况,并分析怎样建设适合自己业务场景的运维工具平台;

2)Sina Dispatch介绍,一个内部研发的任务与shell调度的底层工具;

3)基于dispatch开发的一套完整集群管控平台,包括资源管理模型,集群设计,配置管理,Nginx变更管理,服务降级及封杀管理等方面的实践;

4)Docker在微博平台的应用实践。


by 房秀丽
搜狗高级经理

是否在线上发生故障时,开发和运维人员忙成一团?是否觉得已经对线上故障很重视了,但是线上故障依然屡次发生?是否每天不是在“救火”就是在“救火”路上?是否团队的成就感已被逐渐的抹杀?实践证明,如果仅仅是遇到故障才去解决的“亡羊补牢”式的工作方式,就会使“救火”成为常态。因此,我们需要思考应该如何使运维的状态从“救火”变成“防火”,做到防患于未然。

本次主题分享的是针对搜狗商业平台产品迭代速度不断加快、机群规模持续扩大、应用架构日趋复杂的演变过程中出现的各种运维问题,介绍我们在发布管理、监控管理、故障管理等方面进行的探索,以及如何通过搜狗商业自动化平台和运维体系实现从“救火”逐渐到“防火”的转变。希望能对大家有启发或借鉴作用。


by 陈长城
阿里技术保障 数据库高级专家

通过对比企业数据库运维模式和云数据库(以下简称RDS)的运维区别,说明在云计算时代,运维变成了一种服务,作为公共计算服务的一部分服务于广大企业。这时候云数据库运维面临的机会和挑战。

1、所有企业和个人,对云数据库的SLA要求都是一样高的。在以前我们负责大规模产品线时,宕一台只影响1/16或更小,但在云数据库,对一个用户来讲就宕机1台就是100%不可用。

2、当运维变成一种服务,用户会担心数据是否安全,云平台的运维模式是否可信。

3、用户对RDS平时不希望参与维护,但出问题他会找你,这就要求我们比用户更早发现问题,甚至能提前预判和规避问题。

针对这些痛点,我会介绍RDS产品和运维平台杜康在阿里云计算运维实践中的解决方案,产品在用户和运维界面上的设计,杜康在全链路监控、可信运维模式、智能运维和服务化的进展。

运维体系建设首先是为了稳定性,最终追求的是用户体验。为了提高用户使用RDS的体验,我们开发了一些独有的功能,我将重点介绍CloudDBA的设计和实践,CloudDBA的想法源于我们一直希望把DBA的经验产品化...

演讲专题

Covering innovative topics

4月23日,星期四

  • 敏捷之后,是什么

    敏捷实践在大型组织中现在已经有哪些应用了呢?从小型团队中兴起的敏捷,到了大型组织中如何才能够取得成功呢?

  • 知名移动案例分析

    移动互联网高速发展,我们每天花在移动设备上的时间越来越多。怎么做出一款大众喜爱的应用,从众多 App 中脱颖而出?听听那些耳熟能详的 App 背后的成长故事,也许能找到答案。

  • 新时代的安全

    高危漏洞频发,隐私泄露,普通开发者该如何避免和防范;开发者如何从逻辑上避免风险?

  • 互联网金融背后的技术架构

    何为互联网金融?是互联网公司做金融业务,还是金融公司使用“云计算“,”大数据”等“时髦”技术?这些说法都不足以描述互联网金融的本质。

  • 微服务架构

    过去的一年,微服务架构在社区中讨论广泛。微服务在企业中的实践现状如何?本专题将关注它对企业计算架构的影响,以及一线互联网公司的团队是如何应对实践中的问题与挑战的。

  • 永不止步的前端

    过去一两年,在前端迅猛发展的同时,深深感觉到前端才刚刚开始。前端工程师正在演化成产品工程师,虽有迷雾,但路就在脚下,永不停息。

  • 云计算高可用架构设计与实践

    以分布式系统为基础的云平台需要对CAP原则做很好的平衡,当上层业务需要高可用支撑时,就需要对中间服务层及底层基础架构、操作系统层实现高可用,如何低成本的实现高可用就成为云平台设计的难点。本专题将以透过余额宝等金融服务的高可用服务,揭示底层的数据平台、虚拟化平台、跨数据中心的高可用架构。

4月24日,星期五

  • 可扩展、高可用架构设计

    本专题主要讨论大型复杂的互联网的架构设计、代码与运维体系。

  • 新兴大数据处理技术与工具

    Hadoop之后,又有哪些值得关注的大数据处理工具?

  • 自动化运维

    运维领域经过十多年发展,有什么海量和自动化理论实践供我们借鉴?云和开源运维管理系统的快速发展给我们的运维模式带来什么样的改变?如何在费时的质量问题分析时找到高效和巧妙的方法?

  • 云计算平台构建与应用

    云计算方兴未艾,各种技术与服务层出不穷,各种技术如何取舍?是搭建自己的云平台还是使用公有云服务?如何多快好省建设云平台,又如何在多个公有云服务中快速灵活迁移呢?了解云计算最新技术动态,行业最新内幕,应用最佳实践,就来云计算平台构建与应用专场。

  • 移动开发最佳实践

    移动互联网带来了新的一波创业潮,业务的飞速发展需要技术团队的良好支撑。面临不同时期不同量级的业务时,技术选型和策略可能会完全不同。让我们来看看业内的一些团队是怎么做的。

  • 编程语言实战

    各种不同的编程语言优劣一直是大家热议的话题,这个专题不是为了引起大家的争论,而是展示不同的编程语言在特定的场景解决了哪些问题,以实际的效果来说话,将优劣的问题留给大家来思考。

  • 云计算与大数据应用选型

    无论是云还是大数据,找到合适的解决方案、做好数据选型都是十分关键的。本专题将邀请来自主流云及大数据服务商的技术工程师,旨在帮助企业和个人充分了解主流解决方案的优势与特点,从而更好的进行技术选型。

  • 亚马逊AWS技术应用实践

    作为全球最成功的云计算服务商,亚马逊AWS在技术、功能和生态系统建设方面都有非常丰富的积累与经验。本专题将邀请亚马逊AWS的架构师及客户,分享在亚马逊AWS构建服务的实践,涉及混合云、大数据、移动应用和运维。

4月25日,星期六

  • 团队建设

    关注中小型团队如何走向成功。

  • 服务质量

    O2O潮起,“连接人与服务”成为焦点。我们邀请到一些优秀的服务平台或服务提供商,分享他们是如何针对O2O服务具有的地域性、时效性、闭环性、碎片化等特点,做好服务质量保证的。

  • 挑战全栈开发

    全栈是最近一两年里才流行起来的开发概念,代表一种新的工作模式。全栈工程师是否需要精通整个技术栈的所有技术,是精通单一领域,还是全面发展?全栈工程师在工作中要扮演什么不同的角色,工作过程究竟有何不同?

  • 思考开源

    开源的力量有目共睹,但如何应用开源、如何参与开源软件开发、如何融入和回馈开源社区、如何开源自己的软件等问题,都是很多公司的工程师非常关心的问题。这些问题的答案是什么呢?

  • 基于大数据的机器学习和数据挖掘

    该专题关注于当今最为前沿的机器学习技术, 包括深度学习, 大数据,以及个性化数据挖掘等领域。 我们将邀请该领域的资深专家, 详细介绍这些前沿技术给互联网产业带来的革命性的变化。

  • 技术创业

    在中国,技术创业是个艺术活儿——Google技术牛创业实战干货分享。

  • 移动开发平台与工具应用实践

    一款移动应用要经历从开发、测试、语音IM集成到运营监控的全生命周期,因此如何以低成本、快速的完成以上阶段就成为应用成败的关键。利用第三方开发平台或工具,开发者将以更低的成本获得全生命周期的技术支持,让开发者更专注应用的研发工作。本专场将主要分享移动应用开发过程中可使用的各种平台与工具的特点与应用实践,了解移动IM、IP电话、推送、广告系统背后的技术难点,以及详细解析第三方组件是如何解决用户数据管理、复杂网络、大并发等问题的。