总第15期
Lecture Hall    讲堂
Lecture Hall    讲堂
《双态IT联盟 自动化运维白皮书》概览
文/江东
分享

笔者有幸参与了2018年6月发布的《双态IT联盟 自动化运维白皮书》(以下简称《白皮书》)的讨论与撰写工作,该白皮书既包含了甲方对日常运维的深刻理解和最佳实践,也体现了来自乙方的技术及管理方法论的精华。该白皮书不仅包含自动化运维技术,也包含了自动化运维的组织文化、管理、安全等方面,为传统及混合架构的自动化运维建设、优化、管理提供了有效指引,将指引新一轮的自动化运维市场。

自动化运维过去的这10

自动化运维从2000年在全球市场上开始产生产品雏形,大约在2007年进入中国市场,彼时市场主要由4大巨头的软件产品主导市场:BMC bladelogic、HP Opsware、IBM Tivoli TEC、CA workload automation。商业化软件产品在功能性、成熟度、可扩展性方面完整强劲。

在2015年以前,虽然虚拟化和云计算风起云涌,但是在软件、IT、管理方面还比较传统:软件架构以SOA为主;关键业务的IT基础设施基本上是小机+存储;软件平台依赖商业软件及商业专业服务;业务高可用依赖基础设施的高可用(包括服务器HA架构、存储同步复制及灾备技术、Oracle RAC、两地双中心容灾架构等)。

运维工程师常常处在如下工作环境下:IT资源种类繁多;规范化ITIL管控流程;运维靠人力、靠大神。

一方面,既然运维靠人工够了,自动化就是运维的可选项,常见运维大拿写写脚本就能解决一些常见问题;另一方面,由于商业自动化软件license价格高昂,超出大部分企业的承受能力,只有对可靠性要求极高的金融行业客户才会在业务非常关键的IT环境使用自动化软件来保证系统更加可靠、稳定,以减少人员常见操作失误。即使商业化产品可配置性强、灵活度高,而由于扩容成本高,从某些程度上限制了产品的用武之地,大部分都停留在基于软件标准化功能基础上的功能补充。从市场层面上看,真正用好这些软件,持续形成价值的案例并不多。比如,常见金融行业对自动化运维主要需求:补丁管理;巡检合规;容灾/应急切换;虚机创建/物理机操作系统部署;标准软件部署。

今天回头看来,在过去的10年这个市场一直不温不火,而不温不火背后的根源在于当时的软件架构和IT架构。

白皮书》出台的背景

如果以2007年作为中国自动化运维元年的话,到目前已经有了11个年头,然而自动化运维在近一两年突然爆发式增长。其背景主要是:

第一, 云计算、虚拟化兴起,IT资源数量大大增加,运维工程师负责的设备数量大大增加。资源数量增大一个数量级,运维工作量大大增加,而运维人力配备远远跟不上设备数量的增长,而人力成本增高也使得通过人力补充来支撑运维的方式不可行。不过,云计算和虚拟化也带来了一些优势,比如,IT资源标准化程度高、自动化的ROI效益明显。

第二,开源软件被企业广泛接受。自动化领域的开源软件,如Ansible、Saltstack、Puppet、Chef等成熟度迅速提升,常见企业通过自研自维护,采购开源软件定制及运维服务支撑,甚至采用SaaS服务方式获得自动化能力。

在这种情况下自动化市场需求爆发主要集中在:大型金融企业对自动化的升级改造,打破内部部门界线,整合ITIL流程、故障自处理,形成敏捷可靠的自动化运维场景;其他行业也纷纷建设自动化平台,降低重复性运维工作,保障系统安全稳定,防止运维误操作。然而,大家讨论自动化具体需求时,却发现对它的理解差异非常大,即使是IT圈内人士也如此。在上述背景下,催生了《自动化运维白皮书》的诞生,它主要解决了困扰大家的几个问题:

● 定义了自动化运维

● 自动化发展演进路径

● 自动化服务和能力框架

● 自动化建设最佳实践

《白皮书》核心内容

《白皮书》是一本仅有56页的小册子,在撰写过程中力求精练,可以说是字字珠玑。里面最能解决问题的有以下几点:

Topic 1: 运维自动化与自动化运维之辩

运维自动化是指作为IT运维组织的辅助手段,按照标准化的要求处理日常运维任务、执行维护计划等,从而替代手工操作提升运维效率。

自动化运维是指IT运维组织主动寻求新的服务能力,采用自动化作为赋能手段,通过自动化技术拓展传统运维边界,降低对专业人员的依赖,并以最小的人力成本提高业务的安全性和稳定性,帮助内部和外部使用者实现运维效率的最大提升。

运维自动化是采用自动化的技术加速、优化现有IT运维流程、过程;自动化运维则是从自动化角度深刻变革运维过程。上述两个定义的本质区别是理念上的区别,是站在ITIL角度看自动化,还是从自动化角度改革运维管理流程;是希望高可控还是极尽高效。两个思路其实无所谓对错,各有各的适应场景。本白皮书在几经讨论,考虑以后者立足,革新现有的运维管理体系。

Topic 2 :自动化运维发展阶段

《白皮书》总结了目前国内大量真实客户的演进路线,总结出了典型的演进步骤,方便客户可以根据自身的实际情况制定出切合实际的、可落地的运维演进策略路径。

图 1 自动化运维发展阶段

Topic 3:自动化运维能力框架

自动化运维只关注技术实现还不够,要运维得好还需要建设配套的管理制度、流程、文化。针对下述这些领域,《白皮书》逐项介绍了相关的自动化最佳实践。

图 2 自动化运维能力框架

Topic 4:自动化建设最佳实践

当确定了自动化项目的建设蓝图后,必将面临功能优先级和分步建设的问题,建议采纳如下建设原则:

● 总体规划和分步实施

● 效率和安全平衡发展

● 管理和平台建设并重

● 标准化先行

● 自动化对接

● 自动化失效补偿

《白皮书》并未涉及DevOps相关的自动化,虽然从Gartner的定义来看也属于自动化的范畴,相信这将是未来《白皮书2.0》的重点方向。

结束语

容器和微服务已经成为未来的发展方向和主流,客户的软件从周边到核心系统都正在或者计划进行应用架构的升级改造,甚至有些企业雄心勃勃地推动业务应用的全容器化、微服务化,以降低对传统厂商(如IOE)的依赖,降低硬件投入,提升硬件资源利用率,提升服务的可用性,增加采购的灵活性。

未来运维将面临如下形势:

1. 标准化程度进一步提升,基本上都是Linux系统x86通用硬件架构。

2. 微服务容器架构解决了很多运维难题:容器通过集群解决了部署、升级、故障恢复、弹性伸缩、高可用等传统架构较难解决的问题。

3. 容器技术使DevOps更容易落地,已成为当前最佳实践。

容器的引入将会对目前的自动化运维带来新的变革:

这主要包括,容器管理平台已经不再需要的能力,包括操作系统部署、补丁安装、应用部署、弹性伸缩、应急切换、操作系统启停等;被弱化的自动化需求,包括合规巡检、脚本批量执行、服务器便捷登录、服务启停、进程管理、故障修复、配置变更等;持续使用的功能,包括裸机安装/集群部署、带外管理、容灾切换、配置管理等。

面对这些变革,你准备好了吗?

分享到
关闭