总第10期
2017年9月刊
Practice    实践
Practice    实践
内蒙气象局应用驱动广域网最佳实践
文/李鑫
分享

内蒙古自治区气象局下辖12个盟(市)气象局,119个气象台台站。其网络为典型的三级行业纵向网络,包括2台SR88核心路由器(双机热备)、24台MSR56汇聚路由器(每个盟市两台汇聚路由器,双机热备)、117台MSR36接入路由器。各级路由器之间通过移动、联通双链路冗余备份,保证了组网的可靠性,网络构造如图1所示:

图1 内蒙气象局网络拓扑图

当前用户网络承载了视频会议,气象数据收集等关键业务。通过和用户的沟通交流,当前网络能够满足基本的通信需求,但仍存在以下几个问题:

● 双链路数据流量不均衡,关键业务保障困难:前期视频会议业务为优先级最高的业务,为了保障视频会议系统,使用单独的一条链路承载视频会议流量,另外一条链路承载数据业务流量。当不召开视频会议时,视频会议链路空闲,此时即使数据链路拥塞,相关数据业务也无法调度到视频链路转发,影响用户数据业务的通信;后续用户需要上线CTS关键业务平台,CTS业务为优先级最高的业务,需要每10分钟收集一次相关业务数据,对实时性要求很高。在当前组网下已经无法通过独占链路的方式来进行业务保障,如何保障CTS业务的可靠性和传输质量是用户遇到的一个难题。

● 运营商故障无法及时告警:双链路接入两个不同的运营商,运营商线路故障导致链路故障时,用户设备的接口仍然up,原有网管系统无法及时发现异常,用户业务使用备份链路的情况下仍然可以正常工作。当另外一条链路故障时会导致整个网络系统中断,影响客户业务系统。

● 业务应用无法区分和统计:用户有多种数据业务,例如实景监控业务,山洪预警业务等,前期这些业务都归为数据业务应用,流量统计只能对整个数据业务的流量进行统计。对于用户领导关注的各个业务应用的带宽占用率,原有网管系统无法提供;

● 应用故障定位困难:用户组网为双链路冗余备份,用户无法确认业务流量实际的转发路径,也无法确认当前路径质量。当业务中断或者访问缓慢时,用户无法快速进行故障排查。

以上几个问题严重影响了客户网络的稳定性和利用率,影响了用户对网络的使用体验。

一、内蒙气象AD-WAN IP解决方案实践

为了解决客户当前遇到的问题,推荐客户上线了AD-WAN应用驱动广域网(下文简称AD-WAN)IP解决方案。通过AD-WAN IP解决方案提供的动态应用保障,多维可视等功能,顺利解决了用户现网的问题:

● 通过动态应用保障解决了双链路数据流量不均衡,关键业务保障困难的问题;

AD-WAN IP解决方案以业务应用为粒度执行应用保障和多维可视。首先对用户的现网业务进行了梳理,最终确认了15种需要保障的业务应用,包括优先级最高的视频会议应用和CTS业务应用等。取消了专用的视频链路,基于业务应用优先级,所有应用在两条链路间动态灵活调度,实现了应用的动态质量保障。例如:当前高优先级业务1(视频会议业务或CTS业务)承载在移动链路上,当移动链路故障或者链路质量不满足业务需求时,控制器自动执行应用路径调整,将业务1调整到联通链路上,以此保障高优先级业务的可靠性。另外应用路径调整相关的配置下发通过控制器统一执行,避免了人为操作的故障 ;

● 通过多维可视之故障可视功能,发现运营商线路故障,同时对运营商故障进行实时告警;

AD-WAN IP解决方案通过NQA技术自动探路链路的质量,支持对链路丢包率,延时和抖动相关数据的探测和采集。当运营商线路故障时,NQA探测出链路丢包率增加(当链路中断时,丢包率为100%),当链路的丢包率超过阈值时(用户可以自主设置丢包率阈值),自动触发对应链路的告警功能,提示用户对问题链路进行排查,协助用户快速定位链路故障,避免双链路故障后用户业务系统中断;

● 通过多维可视中的应用流量可视,对用户的业务应用进行区分统计:

用户定义了15种业务应用,通过应用流量可视用户可以统计整网各个业务应用的流量数据,应用带宽占用比例等,同时还能够查看各个链路上应用的流量以及应用带宽占用率。方便用户对各个业务应用的流量进行分析统计,满足了客户领导的需求。

● 通过应用路径和应用健康度可视,快速对应用故障进行定位:

用户可以通过应用路径可视,查看具体应用的转发路径。同时通过应用健康度可以查询到应用路径质量是否满足应用的质量需求。当应用路径的质量不满足应用质量需求时(链路故障或链路拥塞),控制器会自动进行路径调整。当没有路径可以满足质量需求时,应用只能勉强在当前路径上,这时应用的健康度会降低,用户可以通过应用调度页面查询不满足应用质量需求的应用路径,按照应用路径逐链路排查,快速定位故障的原因。例如:用户发现某个地市的视频会议业务出现卡顿,查看对应地市视频会议应用的路径,根据路径逐跳排查链路质量,快速定位故障链路,根据需求对故障链路进行报修或扩容关键链路。

二、内蒙气象局AD-WAN IP流量调度实战

● 拓扑添加和呈现

内蒙气象局AD-WAN方案实施中使用手动的方式完成拓扑添加。手动添加设备和链路并配置设备的位置信息。全局总共147台路由器设备,582条链路(双向链路),Dashboard页面网络拓扑呈现如下:

图2 内蒙气象AD-WAN Dashboard拓扑呈现

● 应用调度和应用保障

用户使用业务服务器的地址定义了15类应用,包括视频会议应用,CTS业务应用等相关应用。 为每个应用定义了对应的应用优先级和质量需求,通过应用调度实现应用的动态保障。

下发的应用调度如下:

五级应用2个(最高优先级),四级应用1个,三级应用6个,二级应用3个,一级应用3个;

省和市之间调度的应用2个,省和所有市县间调度的应用13个

图3 内蒙气象AD-WAN应用调度

● 应用总体流量可视,应用路径,应用健康度可视

运维/Dashboard页面的右上角会显示组网中top5的应用流量信息和应用对应的健康度信息;

应用调度后在运维页面,通过指定应用和应用对应的入口、出口设备,可以查询到应用流量转发的路径,实现业务路径的可视化。通过应用路径和应用健康度可视,用户可以快速定位应用故障:

图4 内蒙气象AD-WAN应用路径查询

● 链路质量和应用流量历史信息查询

运维页面点击链路后可以查询到链路的历史信息,包括链路带宽历史信息,链路质量(丢包率,延时,抖动)历史信息,链路上top3应用流量信息以及应用带宽占用率信息等,方便用户对应用流量信息和链路状态进行统计和分析:

图5 内蒙气象AD-WAN链路历史信息查询

● 故障可视-告警功能

配置丢包率告警,当丢包率大于10%时,控制器在对应链路上告警。运营商线路故障时,链路的丢包率变为100%,控制器可以及时告警,方便用户对问题的处理。

图6 内蒙气象AD-WAN告警信息查询

结束语

内蒙气象局AD-WAN项目,是新华三基于SDN的思想理念建设的新一代广域网,通过智能流量调度功能,针对不同业务对带宽及链路等资源的需求,进行精细化的路径选择和调整,保障气象局中关键业务的质量,提升整网链路资源的利用率。通过运维可视化的功能,对应用的流量、路径及健康度进行可视化的呈现,对链路的质量状态进行可视化的呈现,一旦业务出现问题,就能快速对故障点进行识别和诊断,极大的提升了问题定位的效率,降低了网络运维的复杂度。目前AD-WAN系统已经在内蒙古气象局稳定运行了8个月,为内蒙古气象局业务的稳定运行保驾护航。

分享到
关闭