Focus    前瞻洞察
前瞻洞察
一图一脑双向协同,构建IT运维新范式
文 | 新华三集团智能管理与运维产品线总经理 敖襄桥

当下,人工智能技术正以迅猛之势飞速发展,持续创新突破。过去,AI模型的训练成本居高不下,对训练芯片的性能要求极为严苛,这在一定程度上限制了AI在行业中的广泛应用。然而,随着优化算法、混合精度训练、梯度压缩和模型蒸馏等技术的成熟,AI模型训练成本显著下降,训练芯片的性能要求也趋于合理。成本的降低与算力门槛的优化,不仅加速了AI技术的普及,也为各行业创造了前所未有的发展契机。

以IT运维为例,算力和算法的进步为运维大模型的广泛应用铺平了道路。运维大模型正逐步成熟,并开始深度融入日常运维管理,但要真正提升推理和决策效率,仍需依赖高质量的数字化基座作为支撑。作为应对这一需求的创新方案,新华三集团提出的“全景运维地图”正逐步受到行业关注。该方案通过整合全网资源,为运维大模型提供关键数据与工具,并在双向协同模式下实现相互赋能:全景运维地图不断优化数据供给,助力运维大模型提升推理能力,而运维大模型的演进则进一步推动全景运维地图的创新和应用深化。在这一协同体系中,全景运维地图需要具备一系列关键能力,以确保智能运维的高效性和可持续发展:。

首先,其需要全景可视的能力。想象我们有这样一张超详细的运维地图,上面把系统里每个地方的运行情况都清楚地展示出来,让运维人员一眼就能看明白,这样在做决策的时候,就能有准确的依据,知道该怎么调整和维护。

其次,预测与排障能力也不能少。IT系统就像一个复杂的机器,难免会出故障。有了这一能力,全景运维地图就能提前发现可能出现的问题,在故障发生时,就能快速找到问题并且高效解决,把故障带来的损失和影响降到最低。

进一步,和大模型高效联动能力也很关键。一方面,能够优化用户交互体验,提升运维操作的便捷性与智能化水平;。另一方面,通过大模型驱动的智能决策与自动化运维流程,可实现智能运维的深度赋能。

图1 “一图”协同“一脑”,为各行各业描绘智能化转型画卷

海量ICT信息,一图看清

全景运维地图作为运维可视化的新高度,源于对现代IT环境复杂性的深刻理解。云计算、大数据、微服务等技术已在现代IT领域全面渗透,企业内外部跨域的协同工作频发,都让传统运维软件难以应对。运维团队急需一个能以全局视角直观展示系统状态、助力定位问题与优化资源分配的工具,全景运维地图应运而生。它基于分布式系统架构,融合设备管理、监控、配置管理和日志分析等跨技术域的多源数据,构建统一实时的系统视图。秉持“所见即所得”理念,让运维人员能清晰把握IT环境,做出精准决策。

全景运维地图的架构分为四层:数据采集层实时收集IT组件监控数据;数据处理层通过大数据和机器学习技术清洗、整合并分析数据,提取关键信息;展示层通过图形化界面将分析结果以地图形式呈现,支持缩放、拖拽、过滤等交互操作,使用户能够灵活查看不同层级和维度的信息;应用层提供丰富的功能接口,如告警通知和自动化脚本执行,满足不同运维场景的需求。

图2 全景运维地图方案架构

在实际运维过程中,全景运维地图广泛应用于故障排查、性能优化和资源管理等场景。通过地图快速定位问题节点,并结合关联分析功能找出故障原因;识别性能瓶颈,指导合理的资源分配和调优;同时提升IT资源管理效率,减少资源浪费。

全场景高效的故障诊断

对于网络运维人员而言,在海量数据、复杂网络结构以及繁杂故障信息中找到问题根源,始终是一项极具挑战性的任务,高效、直观的可视化故障诊断和排障能力成为解决运维难题的迫切需求。

在园区场景下,全景运维地图通过对端到端路径的深入分析,结合通断故障的溯源技术,同时辅以Tracert检测技术,可精准找出导致通断的根本故障原因,融合网络拓扑以可视化形式呈现。这使得运维人员能够及时采取有效修复措施,极大提高了园区网络运维的效率和准确性。

在数据中心场景中,全景运维地图的路径检测能力发挥着关键作用,它采用数据面验证(DPV)技术,通过形式化建模验证转发行为与业务意图是否一致。一旦出现异常,全景运维地图能够精准勾勒出故障路径,挖掘故障原因,有效保障数据中心稳定运行。

双向协同用户体验再升级

全景运维地图与运维大模型的紧密联动,无疑是优化用户体验的核心要素,二者的无缝集成,为智能运维领域带来了多方面显著优势。

 智能问答功能赋予运维人员便捷、高效的信息获取途径,可通过自然语言向系统提出问题查询,比如“哪些网络设备在过去24小时内出现过连接中断?”系统能够自动分析并在全景运维地图上精准高亮显示问题设备,并提供详细的中断时间和频次报告,让问题定位变得直观、迅速。

 自动化排障功能则极大地简化了故障处理流程。当系统检测到故障,运维大模型凭借对故障类型的识别和历史数据的分析,自动生成排障脚本或建议,运维人员只需确认后执行,有效减少了人为干预和错误发生的概率。

 智能优化建议功能通过对历史数据和实时状态的深度分析,为运维团队提供资源优化和配置调整的科学建议,系统资源可得到更合理、有效的利用。

应用落地:破局金融 IT 运维难题

金融行业是IT系统高度复杂、运维要求极高的典型代表。在数字金融快速发展的背景下,业务规模不断扩张,多数据中心的协同运营已成为常态。然而,传统运维方式难以适应这种高度复杂的环境,导致运维效率低下、系统稳定性受限,运维人员面临诸多挑战。例如,在多数据中心架构下,业务访问路径长,涉及多个设备节点和物理区域,缺乏统一的管理和可视化工具,使得网络拓扑维护困难、故障排查周期过长。同时,不同网络与第三方系统的运维分析相互独立,难以形成一体化管理,进一步增加了IT运维的复杂性。全景运维地图的引入,为金融行业IT运维提供了突破性的解决方案。它不仅能够全面整合全网资源,提供高度可视化的运维视角,还能帮助运维人员实时掌握网络、设备和业务流向,大幅提升运维效率。其路径检测和仿真功能,使企业能够快速排查和预测故障,降低业务中断风险。此外,依托运维大模型的智能分析能力,全景运维地图可实现精准的闭环管理,从根本上提高金融业务系统的稳定性与可靠性,助力企业在数字化时代保持稳健运营。

结束语

AI技术的迅猛发展正推动IT运维向智能化、高效化方向深度演进,技术演进与工具创新的协同效应已形成明确趋势,以全景运维地图为基座、运维大模型为引擎的技术架构,正在重构IT运维体系的底层逻辑,为行业开辟智能决策、精准执行的运维新范式。

关闭