Focus    前瞻洞察
前瞻洞察
应对大模型挑战的算力平台技术新路径
文 | 新华三集团云与计算存储产品线 吴若昊

随着技术的加速迭代,尤其是千亿级参数大模型的爆发式增长,正在全球范围内引发新一轮算力革命,以DeepSeek-R1-671B为代表的国产大模型在2025年展现出强劲发展势头,其技术路径与产业实践为破解算力瓶颈、重构AI基础设施提供了全新思路。

智算时代已经到来,算力平台技术的新发展将为智算时代带来无限可能。

热潮背后,八年磨一剑的算力平台底蕴

近年来,国家大力推进算力平台建设发展。相关数据显示,预计我国2025年智能算力规模将较2024年增长43%,2026年实现翻倍,进一步巩固我国在全球AI竞赛中的优势地位。

与之相对,国家相关政策、标准也频频出台:国务院国资委在2024年中央企业人工智能专题推进会上强调,将人工智能发展纳入国资央企全局工作,明确要求中央企业加快建设智能算力中心。2024年7月,国资委进一步提出“有序推进智算中心和算力调度运营平台建设”,要求通过多元异构算力调度技术支撑千亿级大模型训练,并推动建设万卡级算力集群,做强智算能力供给;住建部《城市数字公共基础设施标准体系》也首次将以智算中心为代表的算力基础设施纳入城市数字基建标准,明确多元算力协同的技术规范;工信部发布的《算力基础设施高质量发展行动计划》则从技术路径与实施机制层面细化政策落地,提出“算力效能倍增计划”,其深层逻辑在于推动算力从“规模扩张”向“质量跃升”转型……

在日渐火热的市场需求与政策引领背后,人工智能、算力平台的概念其实早已热潮涌动许久。早在2017年,新华三从数据出发面向实际场景:建立学生画像,助力学校扶贫攻坚;建立病历分析模型,提高医疗效率;建立网流分析模型,保障企业网络安全。而随着神经网络技术的不断迭代演进,新华三基于“ABC架构”,即AI、Bigdata、Cloud,通过云上能力,结合数据支撑,打通了一站式AI平台的技术路径。解决了用户算力资源的管理、监控、调度问题,通过在AI算法领域的积累,解决了算法工程学习门槛高、使用不便捷的问题。2023年,大模型的大潮奔涌之下,算力平台的概念又一次站在了时代的浪尖上,也在这一年,新华三云平台凭借万级容器大规模集群调度的能力荣获国家科技进步二等奖。傲飞作为新华三云平台能力的延伸,成为AI和HPC资源一体化管理的集群算力平台,基于八年来的技术沉淀,傲飞不仅保留了降低用户使用门槛,可视化算法开发流程的能力,也基于容器调度、容器管理、容器监控等能力,充分挖掘计算性能,融合异构算力,实现了AI和HPC资源的灵活调配管理与统一运营调度,真正实现了业务的深度融合。

图 1 傲飞统一管理AI和HPC算力资源

自主创新,异构融合化的算力平台跃迁

为满足国产化潮流带来的更深刻的智算需求和更严苛的业务场景,傲飞算力平台以新华三“云-网-安-算-存-端”全产业链综合布局为抓手,探索全新的异构融合的算力调度解决方案,加速推进国产化数字化转型升级。作为一项专门面向AI场景的平台,傲飞在原有云底座的基础上进行了升级,整合了ICT的多个套件,囊括网络、通信、计算、存储、安全等功能。

灵活底座支撑全场景灵活适配

随着智算中心建设如火如荼,如何让算力运营价值最大化成了投资方思考的重点。在这个时代背景下,新华三敏锐地察觉到部署国产化、异构算力将极大提升客户算力投资的回报。首先,在平台部署的技术路线上,傲飞支持CloudOS 7.0与Matrix底座,可以应对大规模算力运营、和自建型算力中心两种差异化场景。在这两个场景下,既可以应对拥有对AI业务旺盛需求的中小客户,也可以灵活应对需要精细化管理和运营的大规模集群客户,实现高中低灵活应对。

异构兼容架构带来高效算力卡适配

傲飞算力平台适配了多家厂商40+款加速卡型号,其中超半数为国产化加速卡设备。为了充分利用现有的算力卡设备,提高昂贵算力设备的利用率,傲飞坚持基于容器技术搭建平台的技术路线,整合优化资源调度引擎和监控管理模块实现算力的合理分配和使用,支持用户根据不同任务选择不同的算力资源分配策略。再次,国产化算力设备的交付选择也带来了不同架构算力卡的适配兼容问题——不同算力卡的底层架构不一致,上层插件不通用。为了应对这个挑战,傲飞将设备驱动的部分接口层进行抽象处理,调度层将所有的算力卡以CRD形式池化纳管,业务层针对资源监控、资源调度等建立统一API接口,极大降低了国产算力卡的适配难度,其适配周期由原有的2-3周缩短到了2天以内。

应用牵引,面向智能体的算力平台创新

自AI诞生的那一刻起,每一个行业相关从业者都希望终有一天AI能够成为自己提高工作效率的帮手,成为自己突破知识瓶颈的伙伴。当AI从静态的“工具”进化为动态的“智能体”,人工智能的终极形态正加速照进现实。从OpenAI的GPT-4o多模态交互,到Manus的20多个工具的自主协作,智能体凭借其自主决策、场景泛化与任务闭环能力,正在重塑百行百业的运行范式。Gartner预测,到2028年会有至少15%的日常工作决策将由AI智能体自主做出,而在这场颠覆性变革中,傲飞算力平台将秉承“云原生”、“智能体原生”的架构理念,为未来海量智能体应用提供包含资源管理、算力调度、容器安全、高可用、网络优化、存储管理、监控告警的全栈能力支持,让智能体真正成为企业数字化转型的“数字员工”。

数据缓存能力带来更高效训练效能

在数据层面,为了解决计算过程中海量数据从存储网络集群向计算节点传输带来的通信瓶颈,傲飞算力平台将建立分布式缓存加速引擎,构建起跨存储系统的虚拟数据编排层,针对大模型训练中频繁访问的热点数据形成智能化缓存管理体系。例如将高频访问的Checkpoint文件、Tokenizer词表等热点数据动态缓存在计算节点的NVMe SSD或GPU显存中;采用智能预取算法,提前将下一阶段需要的预训练语料或微调数据集从存储集群预加载至本地缓存。同时与绿洲平台的深度协同,通过其强大的数据管理、计算能力、和业内领先的湖仓一体架构,实现了从数据湖到训练集群的"零拷贝"数据通道,打通数据整合、处理、运算、推理的智算流程,在千亿参数模型训练场景中,单次迭代数据准备时间从分钟级压缩至秒级,整体训练效率提升达30%以上。

图2 分布式缓存解决数据通讯瓶颈

RoCE网络兼容突破分布式训推业务的通信瓶颈

在网络层面,傲飞算力平台基于RoCE技术,构建低时延网络,在大规模分布式推理环境的容器节点间通信时延优化至微秒级别,构建了一条数据高速公路。平台采用分层流量调度的方式,识别参数服务器与工作节点间的梯度同步流量特征,最终将Allreduce操作的关键路径数据传输时延压缩至微秒级,相比于传统TCP/IP网络提升一个数量级以上。同时基于动态路由优化算法通过大幅提高带宽利用率的方式提高通信效率。这是傲飞算力平台在算力加速领域平衡成本与性能的关键技术选择。

图3 基于RoCE技术优化分布式训练效率

弹性容错技术提供训推过程稳定性全面保障

在安全层面,傲飞算力平台支持节点状态管理、任务容错机制和完善的监控告警系统,基于此用户的智能体业务无论是部署前、部署中还是运行时都能得到有效保证。在资源调度方面,面对某个智能体突增的访问需求,傲飞会启动自动扩容策略,分摊突增的流量压力,避免过量的任务请求造成的任务卡死。当某个智能体处于限制状态时,傲飞也会启动自动缩容策略,保证资源的有效利用。在故障管理方面,傲飞依托自主研发的智能编排框架,构建面向智能体实例的自动化管控能力,实现异常-隔离-重建的闭环管理。

图4 傲飞智能编排框架

结束语

AI大模型的技术革命,本质是一场算力供给模式的革命。从硬件架构创新到平台化服务升级,从单点突破到生态协同,算力平台正在成为AI新纪元的“数字底座”,开启通用人工智能的无限可能。作为数字化解决方案领导者,新华三将全力建设高效、易用、领先的高品质算力平台,开拓应对大模型挑战的全新技术路径,为百行百业的数字化转型注入新动能。

关闭