总17期
Forum    讲堂
Forum    讲堂
Telemetry技术详解
文/齐英师

随着数据中心承载的业务越来越多,一方面数据中心网络快速演变,SDN、大二层Overlay、以及RDMA等技术快速落地应用,另外一方面数据中心需要管理的网络设备也越来越多,如何实现对数据中心全网实现端到端的流量管理与故障监控,甚至故障预判则越来越迫切。比如:如何实现网络丢包、时延、抖动以及网络状态的实时监控和基于网络大数据分析给出故障预判等。

传统网络监控方案的局限性

而传统的网络监控方案诸如CLI、SNMP和Syslog,都因各自的局限性不能满足云数据中心对于网络监控的要求。

CLI:作为应用较广使用最久的网络监控技术,较大的问题就是兼容性,同类产品不同厂商之间的兼容性,甚至同厂商不同版本(比如软件平台切换)之间也会存在差异。而往往现网环境下,大概率会是多厂商设备组网,一旦设备升级调试,都需要更改运维脚本,而多厂商则意味着需要准备多个不同版本的运维脚本,即使本来是很简单的事情也会变得复杂。

SNMP:“拉”模式方式需要采集器通过轮询的方式处理每个网元,随着网络规模、采集器以及采集信息的增加,网元需要接受越来越多的查询,这就对网元的正常工作带来了严重干扰;SDN时代想进一步实现网络大数据分析,对网络节点数据采集还有更高精度要求,但因为采用的是轮询方式,就只能依靠增加频率来实现网元数据的采集,这无形中又进一步给网元CPU带来更大压力;同时因为采用的是“拉”模式,传输时延无可避免,导致监控到的网元数据会进一步失真,只能实现分钟级粒度,远达不到秒级甚至亚秒级的颗粒度。SNMP虽然也有“推”模式,即Trap上报,但推送数据仅告警和事件,对于接口流量之类的数据,不支持;同时又因为采用的是UDP传输协议,又存在丢包的可能。因此进一步限制了SNMP的发展应用。

Syslog:长期以来,Syslog没有一个标准来规范严格的定义好格式,导致Syslog的格式是非常随意的。最坏的情况下,根本就没有任何格式,导致不能对Syslog 消息进行解析,只能将它看作是一个字符串。而2001年定义的RFC3164中,描述了BSD Syslog协议:不过这个规范的很多内容都不是强制性的,常常是“建议”或者“约定”,(规范出的晚)很多厂商并没有遵守或不完全遵守。因此Syslog虽然支持“推”模式,能够在设备产生告警和事件时及时推送数据,然而其推送数据的随意性以及数据主要以告警或事件方式,和SNMP一样对于接口流量信息则力所不及。

因此,面对大规模、高性能、实时、全路径网络数据监控需求,SDN网络呼唤新的网络监控方式:Telemetry解决方案在此背景下,应运而生!

Telemetry解决方案

Telemetry(遥测技术),一般是指从物理网元或者虚拟网元上远程实时高速采集数据,实现对网络实时、高速和更精细的监控技术。

Telemetry网络解决方案,是一个自闭环的自动化运维系统,流程上主要分为数据采集,数据存储,数据分析和决策系统四部分,网络架构上主要分为网元设备、采集器、分析器以及控制器,分工主要如下:

网元设备:即数据采集对象,接收上层系统的配置信息,按照上层系统指定的规则采集数据,并将采集数据上送至采集器;

采集器:即数据采集器,用于接收和存储数据采集系统上报的监控数据(可选);

分析器:即SeerAnalyzer集成网络AI和大数据分析系统,用于分析数据采集系统收集的网元监控数据,并呈现分析结果,为控制器优化业务提供依据;

控制器:即SeerEngine用于配置管理网元设备,优化网络,最终实现优化业务的目的。

图1 Telemetry架构解析

整个系统共同组成Telemetry技术方案的网络架构,完成整体解决方案架构,形成一个相对闭合的自循环优化系统,真正实现业务随需而动,应用驱动网络!

Telemetry数据模型及关键网络技术解析

新华三Telemetry数据传输模型是YANG,支持三种YANG模型,分别是IETF、Openconfig和私有模式,其中:IETF模型:IETF定义的模型,该路线主要运营商主导,但因为运营商自身业务太过庞大,因此标准进展相对较慢;Openconfig模型:由Google牵头主导的模型,国内阿里,腾讯均有参加;新华三私有模型:新华三设备支持新华三私有模型上送数据。

图2 新华三Telemetry支持三种YANG模型

Telemetry方案网络技术一般主要涉及INT、gRPC、ERSPAN以及NetConf等,其中,ERSPAN主要负责从物理网络的指定端口捕获指定的数据报文(包头或者全包),并通过GRE(或者其他合适封装)走带内转发到指定的Target IP(Host),而NetConf主要负责控制器配置下发。

传统探测网络时延和路径主要是Ping和Tracert,但是数据中心网络对于时延的要求越来越高,Ping和Tracert并不能精准的定位出到底是那台设备的那个端口的转发时延最高,因而不能对网络做出针对性的优化,INT技术正是为了满足这一需求诞生的。

INT是In-band Network Telemetry(带内网络遥测)可视化技术的一个重要组成部分,是让网络管理和运维走向真正自动化的第一步,也是最关键的一步。透过INT技术,可以获知报文实际转发路径上的每台网络设备IP、出入端口信息、队列ID、CNG拥塞通知标记、出入时间戳以及转发时延等,并且在路径探测的最后一跳上,对监测的数据进行UDP头和IP头封装,统一发送给采集器。同时因为INT技术采用的是推模式,因而支持一次配置下发,网元持续上报数据,INT技术的优势有:

●支持推模式,支持配置订阅和配置下发,持续数据上报;

●支持配置原始报文的采用率,这样可以有效节省网络资源和数据资源;

●支持在路径探测的最后一跳,直接封装报文并发送给采集器,无需中间节点单独重复上送数据,节省网络资源;

●支持收集探测路径上每台设备的设备信息、接口信息、队列信息、时间戳信息和转发路径信息等,包括采集Underlay网络和Overlay网络路径信息;

图3 基于INT的Telemetry网络架构

gRPC(Google Remote Procedure Call,Google远程过程调用)是Google发布的基于HTTP 2.0传输层协议承载的高性能开源软件框架,提供了支持多种编程语言的、对网络设备进行配置和管理的方法;目前提供C、Java和Go语言版本,分别是gRPCgRPC -Java、gRPC -go;gRPC基于HTTP/2标准设计,带来诸如双向流、流控、头部压缩、单TCP连接上的多复用请求等特性。

表1 gRPC协议分层模型

gRPC网络采用客户端/服务器模型,使用HTTP 2.0协议传输报文,同时支持“推”模式,支持一次订阅,持续返回数据流。

图4 gRPC网络架构

Telemetry方案技术优势

Telemetry解决方案相比传统运维方案优势参见表2。

表2 Telemetry解决方案与传统运维方案对比

而在最终实现效果上,Telemetry方案最终实现是网络的自闭环和保障,主要优势可以分为:可视、分析、预测和保障四大部分:

可视:深度洞察

Telemetry方案实现网络,应用和用户三维一体化360度可视和健康度分析,以及状态感知,同时还可实现网络丢包和微突发实时感知,并且进一步实现网络全路径检测。

分析:智能分析

Telemetry方案支持RDMA状态可视和拥塞分析,业务异常检测及分析,音视频应用体验分析,应用质量分析,无线用户接入故障定位

预测:先知先觉

Telemetry方案支持应用流量/访问量预测、光模块故障预测、流量带宽预测和弱覆盖类问题预测。

保障:闭环自愈

基于Telemetry方案最终可实现业务上线、流量注入和故障推演仿真为业务上线保驾护航,同时提供一键智能排障。

结束语

Telemetry作为一种新的网络监测模式,一方面实现了网络可视化,为每时刻每用户每应用网络体验可视,一方面实现了潜在故障识别定位与故障预判,另外一方面将网络质量信息转换为大数据分析,结合网络AI能力,最终实现网络自治自愈,为企业业务保驾护航,助力企业实现数字化转型第一步!

分享到
关闭