从“PPT”出发,微软智能云搞定“双十一”

让无数白领爱恨交加的“PPT”或许可以算是微软最伟大的发明之一,但在微软内部,“PPT”这三个字母还有着更深深层次的含义——People(人)、Process(流程)、Tool(工具),这三大要素构成了支撑微软智能云 Azure 安全、可靠运维的坚实基础。

“移动为先,云为先”,微软相信,云计算正在像水、电、气一样,成为社会生活中必不可少的基础资源,而如何确保资源安全、可靠、不间断的持续供应,是衡量云计算服务品质的最关键指标。

“坦白讲,在 XP 之前的时代,我们都会遇到电脑蓝屏、故障的情况,‘关机、重启、CTRL+ ALT+ DEL 组合键’是当时很多 IT 管理员最常用的看家本领。但在云计算时代,我们可能有十万台的服务器在同时运行,上面运行着几十万家客户企业的业务流程、生产信息、交易数据,谁敢随便去碰一下试试?”孙家倛是微软中国云计算与企业事业部技术运维支持总经理,或者说,他就是微软智能云 Azure 在华业务的“运维总管”。

20151127-3孙家倛曾先后任职于美国数字设备公司(DEC)、波音公司,在 1995 年加盟微软,是个拥有超过 30 多年系统运维经验的 IT 老兵。DEC 曾是电脑硬件领域响当当的角色,早在 1980 年代的大型机时代,就推出了面向企业出租计算设备的“TimeShare”服务——这种工作模式可以说是今天云计算的原型。而波音公司对于系统稳定安全运行的要求更是不言而喻,“在波音做 IT,最重要的就是确保标准流程与安全,每一件事情都要极其小心,每个环节都是标准化流程。”从多年管理 IT 运维的经验出发,孙家倛总结出了“PPT”准则,并将其贯彻到了微软智能云 Azure 在中国的运维工作中。

微软智能云 Azure 于 2014 年 3 月正式商用,是第一个正式在中国商用的国际公有云服务。通过与本地合作伙伴世纪互联的合作,微软智能云 Azure 遵循微软全球统一标准的技术架构和运维规范,率先提供了有财务保障的 SLA 服务承诺,北京上海两地数据中心的异地备份,并有超过 400 人的技术团队确保 7*24*365 的全天候本土化服务,目前已经服务于包括中国网络电视台、中海油、蒙牛、康佳、海航等超过 50,000 家国内各行业企业客户。在 IDC、Forrester最近公布的相关调查报告中,微软智能云 Azure 均被评为中国公有云市场上的“领导者”。

在这些骄人的成绩背后,孙家倛所领导的微软技术运维支持团队付出了常人看不到的努力和艰辛。“运维团队注定只能是‘幕后英雄’,我们的职责就是在幕后确保云平台安全稳定的运行。大家看不到我们,没事情发生的时候,谁都不知道我们的存在。幸运的是,在微软,我们有最好的工程师、最好的技术专家、最好的客户顾问,他们甘愿在这里默默无闻的工作。‘人和’是我们团队最宝贵的财富。”

如果说人的因素是“软”实力,对于流程和工具的掌握则是支持微软智能云 Azure 可靠运维的“硬”功夫。

微软并不是最早进入云计算领域的厂商,很多流程和工具都是一点点摸索、学习、总结出来的。在孙家倛看来,这与他 1995 年刚进入微软时的状况有些相似。当时的微软正处在快速发展期,自身的内部 IT 都没有像样的管理流程,IBM、Oracle、Sun 的系统互不兼容,IT 环境非常复杂。“微软就是微软最大的客户,因此我们要先从自身做起来”孙家倛回忆说,“英文管这个叫‘吃狗粮’,就是我们要先在内部部署测试新的产品、流程、工具,看看这东西好不好吃,再决定是不是要推给客户。”

从当年的 Windows、Office 这样独立的软件产品,到今天微软打造的业界最全面的生产力解决方案、微软智能云 Azure,微软几乎所有的产品和服务,都是依靠“吃狗粮”的方式一点一滴地完善起来的。在生产环境中测试产品与服务,为其品质和用户体验提供了真正过硬的保证,也让微软建立起了科学、严谨的运维管理流程,并开发出了业界最先进的管理工具,例如今天最高效的混合云管理工具 System Center。

让微软 IT 服务引以为豪的一点,是其能提供真正企业级的服务品质,其中的一个特别之处,在于微软的销售团队会与 IT 技术专家一起,深入了解客户的应用场景和需求,从而有的放矢地为其提供最合适的技术、服务和解决方案。“各行各业都离不开 IT,离不开信息化,但银行和医院的业务场景显然是完全不同的,所以我们需要学会如何设身处地地为客户服务。”

刚刚过去的“双十一”网购高峰,就是电商客户给微软智能云 Azure 提出的一道难题。“双十一”人为制造出了一个网络流量爆发式增长的绝对峰值,从工作原理上看,这实际上就是一次典型的“分布式拒绝服务攻击(DDoS)”——短时间内集中爆发的大量访问请求会让系统疲于奔命,快速耗尽网站的计算资源,进而造成系统瘫痪。可以灵活扩展、按需扩容的云计算是应对这样的突发访问需求的理想解决方案,几乎可以无限扩容的云计算规模能迅速满足电商网站短时激增的访问需求,而且只按照实际使用的时间和用量收费,在满足峰值需求的同时,显著减少了电商在基础设施上的投入。

基于以往的运维经验,在今年“双十一”到来之前,微软智能云 Azure 的运维团队选择了“主动出击”的模式,提前挨家挨户地为电商客户制定了应对峰值爆发的解决方案。“通过面对面的沟通,我们深入了解了客户在‘双十一’期间的具体需求,并针对在线电商交易相关的业务需求提前做出部署,包括在带宽、计算冗余等方面的一些设置和调试,从而确保‘双十一’高峰期间 Azure 服务的安全与稳定。”

与客户、合作伙伴、世纪互联,乃至微软总部的紧密沟通和积极协作,帮助微软智能云 Azure 的运维团队顺利完成了今年“双十一”的保障任务,也给 Azure 的运维工作提出了更高的要求。

“今天的微软不再是软件商,而是服务商。过去我们卖软件产品,今天我们的服务贯穿你的业务发展。微软致力于打造业界顶尖的平台和生产力服务,我们的目标不仅是提高客户满意,还要更好地维护客户忠诚度。”孙家倛表示,在确保服务平稳运行的基础上,微软智能云 Azure 将更多地从客户需要出发, 从客户的角度去思考和解决问题。

从在线电商到线下零售,从制造业到物联网,全球领先、灵活高效、全面创新的微软智能云 Azure 在各个领域推进着中国客户的科技创新和业务转型,而安全可靠、值得信赖的运维实力已经为微软智能云 Azure 的加速发展打下了坚实的基础。

相关文章