总第8期
2016年12月刊
Solution    方案
Solution    方案
大数据时代话运维
文/许广文
分享

在云时代背景下,传统的IT运维服务受到了极大的挑战。传统依靠人员现场解决数据中心预警与故障排查问题的方式,已经不能很好的满足云时代的企业运维需求。在传统的数据中心状态下,企业拥有绝对的系统稳定性与安全性,尤其是像金融、电信这种传统行业,目前他们仍有大部分核心应用都跑在小型机上,而X86服务器进入到传统企业数据中心中,甚至已成为搭建云化数据中心的首选。因为X86集群式、分布式的架构,可以使任何一台X86服务器的功能被无缝取代。对于这种价格低,可替代性强的产品运维,企业并不是很重视,但极大地增加了运维人员的工作量。

虽然运维工作已经借助相应的自动化监控工具,但IT监控系统每分钟要进行上万个数据采集,庞大的 IT 系统每时每刻都在产生大量的数据。如果能够有效利用这些数据,相信一定能够分析出不少有价值的东西,比如流量提前报警等。

随着云计算、大数据在企业的大规模部署,运维未必出现具体的故障,而会出现因访问量增加、网络拥塞等情况,影响用户的体验而引发的投诉,这就要求运维对系统作排查和定位,要求陡然增高。运维就要先分析系统的数据,明确变化趋势发生的时间段。列出时间段前后,列出所有相关的技术割接、调整,以及业务的变化,除非是很明确的业务导向,还是做好自身工作,排除技术本身带来的问题以时间顺序区分优先级,距离业务趋势变化最临近的技术调整优先级最高,而距离时间长的优先级低,在资源有限无法并行的情况下,以优先级高低来投入资源,查明问题。使用排除法来缩小范围,这时需要运维部门已建立对运维数据的大数据分析系统,通过运行数据的变化趋势来判断该调整对业务的影响,如果不具体此条件,这种趋势类故障就只能依据经验进行主观判断,普通运维方式无法定位这种情况下的异常。在调整或割接繁重的环境,可能存在有多个可疑变动,无法明确定位的情况发生,这里应遵循先易后难的原则,先做影响范围小的回退,再作影响大的调整回退,以减小对用户的影响,也减少对今后恢复业务原状所带来的工作量。

因此,要做好运维工作,需要解决如下问题:

  • 运维日志分散,定位问题需要单独登陆设备、系统去分析。
  • 海量数据存储、检索问题,每天新增大量的日志数据,历史数据存储成本高,存了无法有效分析利用、带来价值。
  • 各种设备、应用提供的日志信息之间难以关联,一个问题的出现很可能从应用系统到硬件都有日志记录保存。
  • 问题事件难以提前预警,往往是出了问题再去分析定位。
  • 报表统计需要手工操作,日志数据可视化程度不够。

在此背景下,具备日志实时采集和海量数据存储分析能力的IT运维大数据产品--H3C IT大数据应运而生。

图1 H3C IT大数据结构

H3C IT大数据总体结构如图1所示,采集层负责采集数据中心内各类服务器、网络设备、安全设备、操作系统、数据库、应用系统的日志;解析层负责将日志文件格式转换成统一格式;存储计算层采用分布式存储架构,将解析层处理过的日志文件进行存储;数据挖掘层采用丰富的机器学习算法、结合Spark、Storm等分布式计算框架,进行离线数据挖掘、实时数据分析、用户行为分析、多数据源关联分析;应用层对用户提供丰富的展示界面。

H3C IT大数据主要特性及优势

  • 海量存储计算

分布式特性主要体现在:当日志数据存储到不同分片时,可以分散在多个节点中。分片会均匀的分配到各个节点,保证对索引建立、搜索的负载均衡,节点的增加或删除时,分片数据会做到无缝扩展、迁移。并能利用多副本机制保证集群的高可靠性。

线性扩展能力,主要体现在两个方面:一个是集群部署规模可以线性扩展,另一个方面,随集群规模的扩展,其性能要能够线性或近似线性扩展。

  • 高效检索

H3C IT大数据架构基于实时、分布式企业级搜索引擎,具有优秀的检索性能,并支持全文检索功能。支持近实时的搜索效果,一般查询在毫秒级响应,亿级数据查询在秒级内响应。使用批量提交的方式来优化索引建立性能,具备路由选择功能,可以精确控制文档和查询的转发分片,从而提高检索性能。

  • 全数据源采集

支持采集服务器、网络设备、安全设备、操作系统、数据库、应用系统等日志文件;支持采集数据库访问日志;支持网络流量采集;支持设备性能指标采集;支持端口监听收集数据等,几乎支持全数据源采集。

  • 数据分析挖掘

支持丰富的机器学习算法,能自我完善模型、训练数据。支持基于Spark、Storm等分布式计算框架,支持离线数据挖掘,实时数据分析,支持基于大数据的用户行为分析、多数据源关联分析。

  • 智能关联引擎

全文检索结合关联引擎,实时展示关联多个复杂事件的结果,快速汇总和关联各种分散来源的日志,从而做到相关日志的智能关联。可以实时动态监控、收集各种设备产生的日志信息,并对这些日志标准化、过滤、归并、实时关联分析,从而实现了关键问题的实时告警、智能预警。关联分析引擎主要解决了如下问题:相近日志、事件做归并处理;分析日志之间关系;基于多种日志建模智能预测问题事件。

  • 可视化

提供了丰富的图表类型以及酷炫的前端界面。基于搜索条件的可视化图表统计过滤,并支持定时、实时的可视化图表刷新。支持自由组合可视化为仪表盘,支持已保存的可视化、仪表盘对象的编辑、预览、导入、导出。

  • 强大的安全管理能力

对来自于网络、安全、操作系统、数据库、存储等设施的安全信息与事件进行分析,采用数据挖掘技术,发现隐藏的安全问题,使安全运维人员有效聚焦安全威胁,通过丰富的分析报表全方位检视网内安全状况,通过信息丰富的定位溯源,为业务风险管理及安全响应控制提供有效支持。

通过业务建模,形成对在网业务风险的立体监控。提供端到端攻击路径拓扑展示,结合详细的上下文信息实现攻击溯源,协助管理员做出有效管控措施。

整网安全态势实时监控,动态展示最新发生的攻击行为,提供风险雷达,将各个业务面临的风险状况实时展现。

  • 集群组网

在日常运维中,无论是Windows, Linux, AIX, Solaris, HPUX等各类系统或者是NetAPP、 EMC等存储设备以及Citrix、 Vmware等各类虚拟机系统,各类的系统、设备都有丰富的IT数据产生,例如日志、运行状态数据、甚至是脚本运行的结果输出;通过收集这些IT数据,并进行Google式的快速搜索定位,各类问题的关联解决和快速诊断得到了有力的保障;而进一步利用这些问题故障的搜索可以演变成动态的报表和自动告警,形成了自动化系统管理的快捷流程;把相关的报表、实时监控保存在一起则瞬间形成了面向任务、面向业务的仪表板视图。

在IT运维领域,H3C IT大数据实现了

  • 将所有来源的各类型IT数据编列索引,使您可由单一位置搜索、报告、监控和分析实时或历史的IT数据。
  • 能快速报告各项结果并轻松采纳变更项目,且无须遵循、维护任何复杂的模型或规则。
  • 使您能更快速将问题复原、减少停机时间,以及改善服务效能等级。

结束语

在这个业务快速发展的时代里,系统管理需要尽快从过去的“静默运维”升级到“智能运维”的范畴之中。系统管理可以通过建立从数据检索、日常监控和告警体系、性能衡量与评估到业务视图的深入流程体系。我们可以把日常的运维工作和公司的业务营运目标精密结合起来。大量的系统日志、IT数据可以成为我们智能运维的基础,在此之上,进一步的挖掘、整理和呈现是表达我们思想的有力手段。

分享到
关闭