Focus    前瞻洞察
前瞻洞察
DDC,以创新架构树立智算网络性能标杆
文 | 新华三集团交换机产品线 韦赟

在当今数智化热潮中,智算项目已逐渐渗透至各行各业,从科学研究到商业应用,智算正在推动各领域的深刻变革。面对数千甚至上万卡规模的训练集群,网络如何承载海量训练数据,,提升训练效率,特别是在庞大而复杂的数据环境中实现网络性能的最优配置,成为业界亟待解决的核心难题。

智算网络面临的挑战

智算网络的首要目标是与AI训练数据的传输需求匹配,AI业务对网络的需求主要分为以下几方面。

高带宽

AI训练的本质是大量GPU进行并行计算,而GPU之间需要通过高速网卡和外部网络实现数据交换。目前主流网卡接入速率为200G和400G,800G也即将上市,因此网络设备的接口应满足400G/800G的接入能力。

大规模

智算网络架构需要面对规模迥异的AI训练规模,从数十卡到数十万卡,满足训练资源持续扩容的需求,能平滑扩展的大规模组网能力是网络方案的基本要求。

无损传输

AI训练业务对丢包极为敏感,轻则导致吞吐效率降低,重则将使训练任务中断。而AI数据的流量模型又极易导致网络出现拥塞,传统的ECMP技术已无力应对,亟需新的网络拥塞控制和负载均衡优化技术。

多元异构

当前智算生态百花齐放,各厂商的GPU/网卡产品均具备独特的产品特色,一张具备异构整合能力的网络,将使客户在升级算力、扩容异构算力时,选择更为灵活。

目前应用于AI场景中的有如下几种主流的网络解决方案,但均具备一定的优缺点。

机架式核心交换机

高性能的机架式交换机,采用CLOS架构设计,通过后端交换网板和前端业务线卡的交叉连接,以及基于信元的传输技术,实现框内无阻塞传输的效果,从网络负载技术的角度非常适合AI业务。而这种方案的缺点是单台设备端口数有限(通常仅有数百个端口),且单台设备功耗过大,对部署环境要求较高。

盒式交换机+RoCE技术

该方案组网模型类似数据中心的Spine-Leaf架构,通过数十至数百台400G/800G盒式交换机互联,支持规模演进和高带宽流量。但由于其基于多层单芯片设备的网络拓扑,每台设备独立决策转发,因此ECMP哈希极化问题突出。也就是说,无论当前拥塞情况如何,同一特征的数据流始终会得到相同的哈希结果,在完全相同的路径中传输,不仅浪费网络资源,更会导致负载不均而产生拥塞。与此同时,大规模Spine-Leaf架构也会带来的大量设备配置、运维等潜在问题。

私有的封闭方案

部分同时可提供GPU和网络方案的厂商,会通过集合通信库(CCL)将二者进行捆绑,迫使客户只能选择整套解决方案。此种网络方案可能更适用于同品牌算力资源,但在面对异构算力需求时,则展现出封闭的态度或技术满足度的降低。

面对以上技术需求和现实挑战,新华三的DDC(Diversified Dynamic-Connectivity,多元动态联接)解决方案,通过多项技术创新和开放理念,引领了智算网络技术新的发展方向,成为最有竞争力的智算网络解决方案。

DDC架构:智算高性能网络最优解

DDC是新华三创新推出的智算网络架构,基于创新的设备和架构设计,搭配Comware V9操作系统平台,整合信元转发平面和大规模组网能力,解决了AI应用的拥塞与调度难题。

DDC架构拥有如下关键创新能力。

架构创新

DDC借鉴了机架式交换机的机内无阻塞传输机制,不同的是将交换网板和业务线卡设计成独立工作的盒式形态,再通过800G高速网络进行Spine-Leaf的互联架构,解决了传统机架式方案端口扩展性和单机功耗的问题。

同时,新华三采用控制转发一体化设计,简化了机架式的主控板机制,将组网精简为NCP+NCF两级架构(NCP相当于业务线卡,NCF相当于交换网板)。

去中心化方案在完整保留DDC功能的同时,大幅提升了系统的可靠性和可扩展性,使其更加适应云原生、分布式网络的演进需求,避免了管理网元的故障风险。

图1 DDC组网架构示意

极致性能

DDC采用VoQ(Virtual Output Queueing)和信元(Cell)交换机制,确保流量负载均衡和无拥塞。

VOQ是一种用于拥塞控制的高性能队列管理技术,其核心机制是采用多虚拟输出队列对应多出端口。发送端在发送前,先向接受侧申请带宽资源,获取资源确认后,再灵活调度队列完成流量转发。利用VoQ技术,可以实现DDC系统内的有序流量调度,应用效果体现在以下方面。

无阻塞传输:通过精确的流量调度,确保数据包在DDC内部的无阻塞传输。

优先级调度:支持基于流量优先级的调度,确保关键数据流可以优先传输。

提高网络利用率:通过避免拥塞和优化数据流传输路径,提升网络的整体带宽利用率。

信元交换则是实现多路径负载均衡的关键技术,数据报文通过NCP进行信元等长分片,并以喷洒形式向多路径均匀转发,确保流量分布均衡。相对于传统的逐流或逐包转发机制,信元交换的多链路利用率更高,能实现100%的负载均衡效果,如图2所示。

图2 信元交换转发机制

通过信元交换机制,DDC大大降低了网络拥塞的风险,提高了网络的稳定性和吞吐能力。具体转发步骤以图3为例:

1) Server1发出去往Server4的报文,在NCP1查转发表,得到SystemPort和远端NCP封装信息索引;

2) NCP1根据SystemPort将报文入VoQ队列,如果有令牌,则将报文切割后加Cell封装,封装头中包含ModID、PortID等信息,然后通过Cell口喷射给NCF;

3) NCF收到Cell报文后,查找本地Cell转发表得到出接口后发给Server4;

4) NCP4收到Cell报文后,根据序号进行重组,然后使用Cell头中封装索引获取封装信息后,将重组报文加二层封装,从指定的Port发给Server4。

图3 DDC信元转发流程示意

通过VoQ和信元交换,DDC在大规模网络内实现了最优的无损传输和负载均衡效果,实际性能可参考后文中的测试结果。

开放解耦

DDC的开放解耦能力,体现在对算力设施的解耦支持和DDC系统的开放异构能力两方面。

在算力设施的解耦支持上,信元交换和标准RoCE协议的组合,成为替代封闭方案的关键技术。

在智算网络中,端侧(CCL/GPU/网卡)部分的能力将会影响整体网络的吞吐效率和负载均衡部署方案。例如,当网络采用逐包负载方案时,需要依赖网卡的乱序重排能力。

DDC可以实现网络与端侧能力的解耦,不仅支持多种端口封装的网卡互联,同时利用信元切片和重组能力,将乱序重排功能集成到网络侧,无需依赖网卡能力。

另外,在传统方案中,不同网卡对应流的会话(QP规格)数不同,会带来的哈希效果不同的问题。DDC的信元转发机制,可以忽视QP特征样本数量,即使单QP同样可以切片喷洒,将网卡QP规格不足的劣势完美化解。

因此,DDC方案可以完美解决端侧生态能力不一带来的网络性能问题,从而打破算网设施的捆绑,解除客户对封闭方案的依赖。

在架构内的开放能力上,新华三在设计DDC架构之初,就完全考虑了技术的生态开放路线。

DDC的控制平面使用标准的BGP EVPN协议,不但实现网元之间自协商、自组网,降低了配置复杂程度,更能支持不同厂商的NCP/NCF实现异构组网。

基于DDC在协议层面的开放设计,2024年,新华三与合作伙伴针对DDC架构开放和标准化分别在需求场景分析、方案框架定义、技术方案落地等三个方面提交多篇标准议案,致力于推动产业界开放互联。

草案中明确了DDC的架构实现框架OSF(Open Schedule Fabric,开放调度网络),将调度式网络架构与传统以太网络结合,达到均衡利用网络资源、故障快速切换等优化目标,旨在通过网络侧优化解决AI应用给以太网络带来的新挑战。该草案中对于OSF网络,明确定义以下层次。

OSF管理层:主要负责监控、配置与维护OSF设备。

OSF控制层:主要负责维护OSF网络拓扑信息、拥塞检测与快切。

OSF数据层:主要负责根据控制层下发的路由信息对数据包进行封装、转发和解封,并将数据包发送到授权系统以实现拥塞控制。

通过标准化各层的实现机制和信息交互,不同网络厂家均可以基于此标准开发NCP/NCF设备,并在DDC架构下实现互通,达到传统以太Spine-Leaf架构中的异构互通效果。

基于架构创新、极致性能、开放解耦三方面的关键能力,新华三在业界首发了基于DDC架构的H3C S12500AI交换机,充分验证了设计理念,实现客户价值。

实践成果:H3C S12500AI系列DDC交换机

新华三全新一代DDC交换机H3C S12500AI提供普遍适用于超大规模的“盒盒”组网架构,NCF提供128端口800G OSFP800,NCP下行端口支持400G QSFP112和800G OSFP800两种形态,可以充分满足当前主流网卡形态的接入需求。

DDC组网提供远超于单框式设备的扩容能力,摆脱传统框式设备端口容量上限,可灵活横向扩展。NCF+NCP两级组网下提供9216端口400G或4608端口800G接入能力,DDC多级多集群互联组网方案中,最大可以实现7万个端口规模接入。

图4 H3C S12500AI系列DDC交换机

DDC目前已经通过Tolly测试机构基于多卡GPU的集合通信库 NVIDIA Collective Communication Library (NCCL)以及大模型(Llama3)的性能测试,其中NCCL Alltoall 测试结果表明,H3C DDC 架构网络的总线带宽(busbw)较InfiniBand方案平均提升2.5%,在大消息传输场景下表现尤为突出。

图5 DDC网络性能测试(All-to-All)

当前,新华三 DDC 产品已在多家行业客户中实现规模化部署,这一实践充分印证了遵循开放标准的 DDC 技术在市场层面具备更强的适应性与竞争力。

关闭