总第8期
2016年12月刊
Focus    焦点
Focus    焦点
大数据驱动IT运营分析
文/ 洪福成
分享

摘要:利用大数据和数据挖掘技术,针对IT系统运行过程中产生的海量日志数据、传感数据、系统事件、KPI指标、网络数据包等机器数据进行存储、计算、分析、展现,并将结果转化为可付诸实施的解决方案,帮助IT运维人员有效地进行异常预警、故障诊断、系统优化等,缩短故障修复时间,减少事故和宕机次数,平滑地实现无故障的应用发布和系统升级。

云计算、移动互联网、物联网等新兴技术驱动数据中心进入云端化的新阶段,客户对基于云的应用服务越来越多,对数据中心的业务保障能力、故障处理能力等提出更高要求。然而,数据中心的技术架构越来越复杂,设备规模不断扩大,庞大的信息系统维护已经不是单纯依靠维护人员手工可以有效完成,大型分布式系统在真实生产环境下所产生的大量日志和系统事件数据是检查系统运行状态的最有效途径。

ITOA(IT运营分析,IT Operations Analytics)就是利用大数据和数据挖掘技术,针对IT系统运行过程中产生的海量日志数据、传感数据、系统事件、KPI指标、网络数据包等机器数据进行存储、计算、分析、展现,并将分析结果转化为可付诸实施的解决方案,帮助IT运维和管理人员有效地进行异常预警、故障诊断和系统优化,缩短故障修复时间,减少事故和宕机次数,平滑地实现无故障的应用发布和系统升级。在Gartner 的技术成熟度(Hyper Cycle)报告中,将ITOA 对商业的影响列为“高”,即企业使用相关技术将有机会显著地提升盈利及降低成本。

一、 传统日志处理技术困境

图1 传统日志处理技术困境

如上图所示,面对海量机器数据,传统的日志处理技术存在较多问题的,可以归纳为以下几点:

1) 数据孤岛。在传统日志处理系统中,各设备/系统的日志数据是孤立、分散存储在不同系统中的,不同系统的日志数据无法进行关联和发现共性。在定位分析问题时,系统管理员往往需要多次登陆不同系统,使用简易的脚本命令或程序查看日志数据,操作繁琐,并且容易出错。如何解决机器数据统一存储和管理问题?

2) 海量存储。传统日志处理系统采用关系型数据库,无法适应TB/PB级机器数据存储和快速访问性能要求,也不适合处理以非结构化类型为主的机器数据。如何解决海量非结构化机器数据低成本存储和持续可扩展性问题?

3) 全文检索。传统日志处理系统无法实现从非结构化的机器数据全文中快速查找相关匹配信息。如何实现问题快速查找、定位和回溯?

4) 价值发掘。传统日志处理系统在数据存储、快速计算、全文检索等方面存在诸多限制,同时也限制了对机器数据的新价值挖掘。如何快速实现对来源不同的机器数据进行关联分析和机器学习,发掘新的数据价值,如:总体态势、趋势分析、异常预测等,并通过可视化图表和仪表盘进行直观呈现?

当前,大数据技术可以很好地解决传统日志系统存在的诸多问题。

二、 大数据技术用于ITOA

图2 大数据应用于ITOA

如图2所示,IT系统中的存储、服务器、数据库、中间件、操作系统、网络、安全、虚拟机、应用等所有部件的机器数据,如:日志、配置、事件、告警等,都可以统一采集和存储到一个大数据平台,进行统一管理、检索和分析。大数据技术采用分布式存储,基于X86服务器集群及横向扩展能力,可以提供海量的、低成本的存储能力,为统一数据管理,打破数据孤岛提供基本的技术能力;同时,通过Hadoop并行处理框架对海量数据进行快速数据计算,通过ElasticSearch对非结构化数据提供一个分布式全文检索引擎,可支持快速全文检索、数据关联分析、机器学习挖掘等价值变现能力。

三、 新华三IT大数据

图3 IT大数据技术架构

IT大数据是一款针对数据中心推出的大数据应用系统,基于分布式处理架构,通过对日志数据、传感数据、安全事件、KPI指标、网络数据等机器数据进行统一采集、解析、存储和管理,提供全文检索、机器学习、关联分析、可视化图表、监控告警等功能,帮助用户获得海量机器数据有价值的信息。IT大数据由大数据平台、数据采集、应用适配、IT大数据应用和运维管理等五个部分组成。

1. 大数据平台

大数据平台基于分布式计算框架Hadoop/Spark和分布式检索引擎ElasticSearch混合架构。

ElasticSearch是当前流行的企业级全文检索引擎,其特点包括:支持JOSN进行数据索引、支持RESTful检索引擎接口、基于Lucene全文检索引擎等。ElasticSearch提供分布式检索引擎架构,基于X86服务器及本地硬盘,可以横向扩展集群节点到上千台,存储和处理PE/EB索引数据。ElasticSearch支持索引数据分块和多副本机制,副本分布存储在集群的不同节点,可提供分布式处理能力,并支持索引数据的冗余备份机制。

IT大数据对Hadoop/Spark和ElasticSearch进行深度混合应用,ElasticSearch作为数据源,Hadoop/Spark作为执行引擎,通过实现Hadoop和ElasticSearch之间的输入/输出,可以在Hadoop/Spark里面对ElasticSearch集群的数据进行读取和写入,充分发挥Hadoop/Spark并行处理的优势,为Hadoop/Spark数据带来实时全文搜索能力。

2. 数据采集

针对数据中心机器数据来源的多样性,IT大数据实现了多种数据采集方式,对网络、安全、服务器、存储等日志数据,通过配置和监听UDP端口采集;对主机性能、应用性能、数据库日志等数据,通过在客户端安装探针进行采集。

机器数据是基于时间序列生成的非结构化数据,无标准格式,不同厂家的设备/系统格式都不一样,IT大数据支持自定义解析规则,可以兼容任意厂家的机器数据格式。

利用Kafaka+Storm/Stream组件对数据进行接收、解析和加载等进行分布式处理,可以大幅提升数据采集性能,支持多达数十万个数据源并行采集。

3. 应用适配

通过IT大数据提供的应用适配功能,用户可以快速生成所需的场景化应用。

全文检索功能能够帮助用户快速查询所需要全文信息,用于问题查找、定位和回溯等,用户可以自定义检索条件,包括模糊查询、优先级、操作符(AND、OR、NOT、+、-),可定义查询索引表组合和范围,可自定义报表字段以及时间序列等。

可视化图表对检索或分析结果进行可视化展示,图表类型丰富,包括:折线图、面积图、饼图、地图、区域图、表格、曲线图、柱状图、雷达图、标签云、桑基图、时间轴、热力图、雷达图、雷达扫描图等,多个图表可以组成主题仪表盘。

使用监控告警功能,可以对异常分析结果进行告警,并通过email、声音提醒、web通知等方式通知用户。

4. IT大数据应用

IT大数据应用可以分以下几种类型,包括:

l 主题统计/分析类型。基于某个主题,对相关机器数据进行统计、分析,生成可视化报告。例如:IT态势感知,对IT系统中整体信息进行分析、统计,实时监控IT系统的整体健康状况;网络安全态势主题,对IT系统中所有安全相关的信息进行分析和统计,监控整个网络的安全动态;无线轨迹态势主题,对智能终端轨迹数据进行分析和统计,监控整个热点区域轨迹态势,并对重点轨迹行为进行分析。

l 异常查找/定位类型。通过全文检索功能,根据异常的特征,从整个IT系统机器数据中查找/定位所有相关信息,描绘异常发生的路径,回溯异常发生的源头。例如:故障快速定位/异常行为追踪,按故障/异常的特征进行全文检索,能够检索出故障/异常发生的所有相关设备、时间、路径和源头,并通过可视化图表进行展示。

l 趋势研判/预测类型。对系统内相关样本数据采用机器学习算法训练出相关模型,能够对特征行为进行预测和趋势分析。例如:网络流量预测,通过采集大量的样本数据,通过时间序列和流量等关键特征训练建模,能够预测未来实际网络流量的流向、大小等趋势。

5. 运维管理

运维管理部分实行对IT大数据集群的安装部署、运维监控、单点登录、用户管理、权限管理和安全审计等系统功能,为用户使用IT大数据系统提供基本管理。

四、 结束语

移动互联网、物联网、大数据、云计算、SaaS等新技术的快速发展,驱动IT运营由过去的支撑系统向价值创造的生产系统转变。IT大数据能够最大程度地解决了现代数据中心的管理矛盾问题,满足了云计算、大数据时代对数据中心环境整体监控、运维管理、分析预测等要求,帮助用户极大地提高数据中心的可用性、可维护性和工作效率,同时大幅降低运维管理成本,为数据中心的运营分析带来巨大的应用价值。

分享到
关闭