总16期
Lecture Hall    讲堂
Lecture Hall    讲堂
机器学习实现智能运维 你的系统需要AI把脉吗?
文/杨涛
分享

编者儿时有个梦想,上学很累,学知识很累 有没有可能未来某一天,研究出来一种药物,小朋友只需要吃下它,就可以瞬间将人类已掌握的所有知识全部学会……

小时候的梦总是很美好,不过,在存储运维领域里,InfoSight,正走在梦想实现的路上……

InfoSight是一套融入人工智能机器学习的智能运维系统,可以把全球所有部署InfoSight的硬件设备的运维数据实时共享。全球只要有一台设备发生过这个故障,InfoSight就会把这个故障的征兆以及解决方案记录并共享,一旦其他存储设备遇到类似的情况,InfoSight就可以提前预知故障,甚至主动预防和处理。就像给存储设备打上故障疫苗一样,其他存储设备就不会发生同样的故障了。

这一功能在IT运维领域极其有效。

机器学习 vs. 人类经验

今天,移动办公、移动购物、移动互动已经成为社会主流。而与此对应的,是人们对IT系统随时能够提供数据服务的诉求越来越高。

第三方调查数据显示,如果在一个应用上超过3次无法正常访问,消费者很快就会转移到另一个应用上。显然,IT基础架构已经是企业核心市场竞争力之一。

图1

与此对应的,数据中心机房环境却越来越复杂,故障可能出现在IT基础架构的每一个环节。运维工程师的已有经验只能覆盖10%~20%最常见的错误,一旦业务访问数据出现问题,运维工程师就需要耗时良久,通过不断尝试排查故障,很难在短时间内解决问题。

更令人遗憾的是,即使问题解决,故障经验也只在排查故障的运维工程师这里积累,无法与全球运维工程师知识共享。这样,同样的故障很可能在全球每一个角落重复上演,却没有办法快速提升解决问题的效率。

如今,最早引起大众轰动的AlphaGo在围棋上的进步,已经强大到可以让最顶级的人类高手两颗子,在IT运维领域引入机器学习的力量,也很快突破了人类极限,大幅提升运维效率。

“疑难杂症”AI应对

对运维工程师来说,如图2所示,大部分常见问题可以凭经验搞定,但还有20%的“疑难杂症”占用了80%的运维精力。InfoSight就可以为这些“疑难杂症”快速提供解决之道,大幅度提升运维效率。

图2 20%的“疑难杂症”占用了80%的运维精力举例来说,

如图3是传统存储管理中经常会遇到的情况,在某一时刻,性能曲线图里出现了一次时延显著提升。由于这种时延上升出现的很频繁,我们很容易忽略它,但却不知道背后到底意味着什么深层次的原因。就像我们的身体偶尔感到不舒服一样,也许只是普通感冒,但有时,却意味着重大的健康隐患。

图3 传统存储管理与通过InfoSight运维管理对比

通过InfoSight,就可以告诉你每次异常时候的状态,并且能够分析背后的故障原因,判断究竟是一次普通感冒,还是一个重大的健康隐患!如果经判断只是一次正常的感冒,InfoSight会自动关闭问题,告知你不需要额外关注了。

通过InfoSight,我们可以做到以前的IT运维做不到的事情:

● 风险预防:将已知问题发生之前很明显的特征集推送到全球所有设备,提前感知问题并给出预防建议,避免问题的发生。

● 需求预测:根据现有资源使用情况,精确预测未来需求,给出应对计划,典型应用场景是容量扩容和性能扩容预测分析=。

● 应用感知:该功能不仅适用于存储业务本身,还可以感知业务卡顿时的原因到底是来自于服务器、网络还是存储,迅速定位根源,从而有的放矢的解决问题。

引领智能潮流

下面本文会介绍下InfoSight的典型应用。

1、风险预防案例:InfoSight提醒用户,需要按照提示做调整,否则30天后存储会变得敏感和脆弱。

图4 风险预防提示

2、需求预测案例:InfoSight提醒用户,现有资源极大概率会在10.24饱和,较大概率会在9.25饱和,建议提前应对。

图5 需求预测提示

3、应用感知案例:当应用出现一个较高的时延,InfoSight清晰的告诉用户本次时延主要来自于主机,需重点排查主机侧的问题。

图6应用感知提示

最初,InfoSight应用在Nimble上,后续其应用范围逐渐 扩大到3PAR、StoreOnce以及服务器上。笔者预计在在五年内,InfoSight会成为IT市场用户的标配,它将和我们一起见证智能存储时代的到来。

分享到
关闭