总第11期
2017年12月刊
Focus    焦点
Focus    焦点
基于态势感知安全智能云运维
文/刘江山
分享

近几年,随着云计算、微服务等技术的流行,以及互联网业务的迅速发展,运维人员要关注的服务数量也呈现了指数级增长,自动化运维虽然提升了效率,解决了一部分问题,但也遇到了新的难题,比如面对繁多的报警信息,运维人员应该如何处理?故障发生时,又如何能够迅速定位问题?

智能化运维应运而生,智能化运维就是希望基于已有的运维数据(日志、监控信息、应用信息等)并通过机器学习的方式来进一步解决自动化运维没办法解决的问题。传统的监控为了发现现在的错误,智能化监控为了预测潜在的问题,进而实现更加全面和体系化的监控生态。这个阶段最显著的标志应该是运维工作从依靠人工决策,逐步转为依靠机器决策。

安全态势感知平台需要对全网资产进行资源管理的基础上,以业务应用为牵引,实现多维度数据采集和性能监控、故障监控以及全生命周期配置管理的流程,并充分利用可视化技术呈现实现全景运维。随着运维的精细化要求越来越高,智能化的运维可以让运维更简单。这就需要更全面的自动化能力和数据分析能力,具体的智能化运维设计需要实现如下目标。

● 集成多方的平台能力。建立统一的智能化运维管理平台,实现对多系统、多业务的整合,并能够与威胁情报、网管平台等第三方知识库进行对接。通过统一平台化,模糊业务系统与运维平台之间的边界,增加深入的数据关联分析。

● 强大的故障监测能力,运维对象从传统的物理设备延展至云端虚拟化设备,实现物理设备、虚拟化设备、应用系统等多类型资产的监测。可以深入业务并且对业务进行多维度的故障挖掘,分析业务运行情况,重点监控关键资产,关心业务关键节点,快速发现问题,生成工单。

● 多场景下的自动化规则,通过历史经验的积累建立多种运维场景模型规则。当出现资产变更/故障/异常分析/预测等运维场景时,都可以找到智能化的模型/具体实现,并提供相对应的解决预案,可以通过自动或者手动的方式快速解决问题。实现对已知场景的自动化感知分析并处理。

● 大数据实时分析能力,当预制规则不匹配时,根据运维平台多维度采集的数据进行问题根源与可能的故障隐患的分析,并提供实时的变更和调度智能决策的能力。同时,提供自动学习的可能,不断完善自动化模型规则。

● 对运维事件的闭环处理。首先需要实现资源管理、业务信息管理平台、自动化平台、监控平台、IT数据运营平台等多个平台要闭环对接,提供一站式的运维服务能力。其次需要提供事件的记录、跟踪、处理、反馈等关键节点,保障运维工作高效运行。

● 更智能化的技术架构。无论是微服务还是Cloud Native的实现,其实都是从更高的技术架构要求上提供了运维统一平台的自治能力,智能化的技术架构让智能化运维真正有了落地的可能性。

态势感知智能化云运维的技术实现

基于安全态势感知平台的运维需求,建立一个面向服务的基于一体化、智能化、容器化和可视化的统一智能云化运维平台。

1运维管理统一化:

建立统一运维平台来进行多方平台的整合。整合资产管理、资产监控、故障处理等多套系统。

● 基于CMDB 配置管理技术,建立面向IT资源和非IT资源的统一管理和监控体系。同步管理流程对资源管理库的改动数据,实现资源管理数据的整个生命周期的管理。

● 通过资产管理,将所有待管理的资产加入配置管理数据库(CMDB),通过对CMDB中的资产进行监控,定时获取资产性能数据、配置详情、trap日志等信息,为数据分析、自动化处理提供最原始的数据信息。

● 建立ITIL(IT基础架构库)流程,通过构建人员、流程、资产、服务的云运维管理体系的业务模型,实现将运维事件服务化,关注服务流程,实现对运维事件的闭环处理。

2、决策智能化

传统监控软件大多是采样式的。采样意味着监控的评定是一种模糊估算,是去除了细节的大趋势上的一种判断。在通过监控做到了总体稳定的初级目标以后,有必要通过全量数据分析的方式,对细节做更明确、更高效的诊断和优化。 随着技术的发展,大数据的兴起,靠数据来驱动运维,也成为可能。

● 通过对历史事件的时域频域的分析,找出历史规律,自动发现异常。

● 全面覆盖所有数据,进行历史数据进行基线学习,无需设定固定阈值。

● 对于报警及异常事件,主动利用场景规则进行识别并找出关联指标和事件,快速定位问题,进行问题根源追溯。

● 通过对日志的整合分析,进行诊断、聚类,对比和规律挖掘,突出有问题的日志。

● 提供专业运维知识库,通过特征匹配平台自身进行故障根源定位。

3、服务容器化:

图 1 微服务架构设计

由于系统运维的复杂性、多业务性以及考虑到以后的可扩展性、快速迭代的特性,微服务架构更适合我们运维的业务需求。选择微服务架构,使用微服务架构对整体的系统运维进行解耦合,有利于后期进行任务拓展、二次开发。运维微服务设计将运维平台切分为多个服务簇,详见图1 微服务架构设计,智能化云运维微服务设计主要包含如下几个方面:

● 运维平台微服务边界切分:我们通过梳理业务流程、抽取公共服务、定义业务服务、设计数据模型、定义服务接口五个步骤将运维平台切分为公共服务、资产管理、资产监控、安全策略配置、第三方联动、故障处理、数据分析等微服务。

● 微服务簇设计及契约接口定义:针对运维平台的处理特点,服务层中的微服务分三类进行规划设计,运维配置服务簇负责从UDU标准数据集中进行策略下发、配置核查和配置本分恢复等操作;运维监控微服务簇是运维处理的基础,运维监控微服务簇通过对资产的监控获取资产的性能数据、告警信息,拓扑链路信息,为其他服务提供最原始的数据。运维联动微服务簇负责安全策略响应、漏扫工具联动、APM服务的协同处理,同时还提供对接第三方威胁情报、故障处理建议来丰富运维平台的知识库。各类微服务通过REST、RPC等轻量级通信机制和MessageBroker等消息服务进行交互和联系,构建微服务簇网络,并通过服务路由进行统一管理和调度。

● 微服务治理和容器部署:由各类微服务簇连接成的微服务网络,其高效协调工作离不开微服务治理技术和容器管理技术。通过服务路由和服务治理负责各种大小微服务的资源调度、部署运行、服务发现、扩容缩容、统一配置和容错等一整套功能,最后基于云计算和容器技术进行微服务的自动部署和动态管理。

4、运维可视化:

提供可视化、智能化导航管理的新型运维模式,大大降低运维管理的技术难度,从整体到细节帮助用户全面掌控运行情况,帮助用户熟悉服务与流程的自动化管理,提升IT 服务管理能力。提供从应用、资产域、资产多视角集中化的监控服务。

● 运营全景图,以业务和资产域为导向,通过业务进行资源管理的划分。以业务和资产域两个维度进行展现当前运维平台所包含的资产运行状态。通过展示网络拓扑显示资产域/业务之间的网络连接情况,通过资产域/业务下钻来查看具体业务/资产域内的详细网络链路图。

● 实时告警预警,运维统一平台提供实时的告警预警信息的推送和图形化展现的功能。运维统一平台告警主要包含设备自身故障告警、发生安全攻击事件和性能监控项超过阈值。需要定义设备trap转告警规则、预设监控项预警阈值。安全攻击事件由数据分析平台分析得出并推送至运维统一平台。监控项预警阈值也可以通过数据分析学习实现平台自反馈。

● 运行状态报告,对业务、关键资产进行运行状态进行分析,并提取各监控领域的关键指标,实时生成运行状态报告来进行推送和展示。

● 数据整合展示,对于第三方网管中心、漏扫工具、APM服务等传入的网管监控数据,进行统一平台的整合重构,生成新的展示内容。

● 大屏展示了,运维大屏展示卡片式、拖拽布局,用户可通过选择运维数据源展示维度等配置实现运维大屏用户自定义。预定义的大屏包含资产位置分布图、实时告警信息、关键资产构成、高危资产TOPN、资产安全趋势、服务器性能监控、网络设备负载情况、故障告警处理情况等信息。

结束语

目前来看,当前基于人工智能的“自动化运维”某种角度来看,还需要很长的一段路要走。短期内基于机器学习的监控和分析以及基于规则的自动化处理,可挖掘的空间很大。在对数据的特征建设和归档中走向“智能”,自己解放自己的双手。

分享到
关闭