迈向AI新纪元

前瞻洞察

面向GPU算力纵向扩展的Scale-up网络技术研究

文 | 新华三集团先进技术研究部徐在水

摘要

Scale-up网络是算力资源纵向扩展网络，用于提供高带宽、低时延与高可靠的GPU互联网络，压缩GPU之间的通信开销，提高算力资源利用率。本文分析了Scale-up网络的技术要求，指出当前RoCE v2与PCIe都不能完全满足Scale-up网络的技术要求，需要从物理层、链路层及事务层等各个层面做优化。系统梳理了Scale-up网络国内外最新的标准化进展，并对未来Scale-up网络趋势做出预判。

关键词

智算网络；并行计算；纵向扩展；大模型；内存语义；计算-通信融合

引言

AIGC爆发式发展对基础设施的需求日益增长。过去5年，从BERT到GPT-4，数据规模增长了约4000倍，参数规模增长了约1.6万倍。随着大模型参数量突破万亿级，当前大模型的数据量远超单台1机8卡GPU服务器计算能力，必须要把数据处理和存储分散到多个GPU中，需要千卡万卡构建的GPU集群来做支撑。GPU集群有两种算力资源的扩展策略：纵向扩展Scale-up和横向扩展Scale-out，具体选择取决于训练或推理场景对算力密度、互联带宽及扩展规模的需求差异。

本文详细描述了Scale-up网络的高带宽、低时延与高可靠性的技术要求，应对这些技术要求Scale-up网络需要在物理层、链路层及其他层实现的各项关键技术，指出了Scale-up网络的技术路线，简要介绍了当前UALink、OISA等标准协议，并对未来Scale-up网络技术趋势进行的研判。在性能需求与生态开放的双重驱动下，随着开放标准协议制订完成与产业生态的成熟，Scale-up网络正在重塑下一代AI算力基础设施格局。

1 Scale-up网络技术要求

大模型需要采用多机多卡集群的方式进行训练，主流的并行训练方式有数据并行、模型并行（张量并行、流水线并行）、专家并行等。张量并行和专家并行的并行计算方式，每次迭代数据量达几百GB，GPU互联需要超高带宽和极低时延，以压缩GPU之间的通信开销成本，此时纵向扩展成为必然——Scale-up网络是一种追求极致性能的算力资源纵向扩展网络。

表1 主流并行计算方式及算力资源扩展策略

1.1 高带宽

算力、算据、算法需求在大模型时代呈现爆炸式增长，传输链路带宽的提升速度远远落后于AI算力的快速增长。参数量、数据量的指数级增长带来的内存墙问题。

由于内存的读写速度相对较慢，处理器在等待数据从内存中读取或写入时会出现空闲状态，从而限制了系统的性能，即使增加处理器数量和核数，也无法有效提高整体的计算能力。高带宽是解决内存墙问题的关键，也是Scale-up网络面临的挑战。

图1 AI与内存墙

图2 并行计算计算-通信耦合

Scale-up网络需要多大带宽？这个问题需要考虑单GPU的吞吐量单GPU的计算吞吐量、通信数据量和训练流程设计来综合评估。假设计算时间可以与通信时间完全重叠，则可近似计算出所需带宽下限：

B = D×N / T (单位：GB/s)

其中，

‌B‌：网络带宽需求，单位为 ‌GB/s‌。

‌D‌：单次通信的数据量（如梯度、参数同步量），单位为 ‌GBytes‌。

‌T‌：单次迭代的计算时间（即GPU完成一次前向+反向传播的时间），单位为 ‌秒‌。

‌N‌：通信频率（即单次迭代中需要通信的次数，例如梯度同步次数）。

实际场景中，通信时间和计算时间不可能完全重叠，通信时间还会受协议开销、网络延迟、并行通信的效率等因素影响。PCIe带宽已不能满足Scale-up网络的带宽需求，为了解决这个问题，英伟达开发了NVLink总线。

1.2 低时延

Scale-up网络的设计目标是实现细粒度的计算-通信融合，需要低时延的核心原因在于其底层硬件架构和协议设计直接支持‌内存级操作‌与‌计算任务的无缝协同。具体如下：

1）Scale-up需要支持细粒度的内存语义通信，GPU需要基于‌Load/Store/Atomic‌等内存级操作协议，通过Scale-up网络直接访问远端显存，实现类似本地内存的读写效率‌。若延迟过高，会导致数据同步阻塞，拖慢训练效率；

2）在多GPU并发更新参数时，梯度累加等操作需快速完成以避免数据竞争。高延迟会破坏全局一致性，引发训练错误；

3）GPU采用多种方法‌隐藏通信开销。若Scale-up网络延迟过高，通信时间超过计算时间，会导致GPU计算形成空泡。

网络时延可以分为静态时延和动态时延两部分。静态时延包括信号传输、转发和交换时延，与互联及设备性能相关；动态时延与网络吞吐量和利用率等相关，受网络负载和流量控制策略的影响，会随时间和网络状态变化。通常要求Scale-up网络时延控制在1us以下。根据Nvidia技术白皮书及IEEE等相关论文研究，RoCE v2直连显存到显存时延超过1.5us，这个时延已影响到高性能GPU的算力利用率。

1.3 高可靠

高可靠性是Scale-up网络的基本需求，因为计算任务的确定性，网络异常都会导致计算时长增加甚至无法完成任务。

首先，Scale-up网络支持GPU间内存原子操作（如梯度累加，需依赖原子操作保证多节点数据一致性‌），单次网络传输错误可能引发全局数据不一致，导致模型收敛失败‌。

其次，Scale-up网络是细粒度的计算-通信强耦合，反向传播梯度同步需在微秒级窗口完成，网络拥塞、丢包或重传会破坏流水线并行节奏，使整体计算效率下降。

第三，保障持续训练任务不中断。AI大模型训练通常需数千GPU连续运行数周，单次网络中断可能导致数天计算资源浪费‌。

综上，Scale-up网络是细粒度的计算-通信强耦合，需满足高带宽、低时延、高可靠技术要求，以压缩通信开销，以解决传统网络架构面临算力墙、通信墙、能耗墙问题。

表2 Scale-up网络技术要求

2 Scale-up网络关键技术

应对Scale-up网络高带宽、低时延、高可靠的技术要求，需要从物理层、链路层、以及事务层等其它上层逐层分析。

图3 Scale-up网络关键技术分层分析

2.1 物理层

Scale-up网络物理层首先要考虑带宽问题。GPU采用提升Serdes速率和扩展连接数来来缓解内存墙问题，让GPU算力发挥最大效能。例如英伟达单GPU带宽已达到1.8TB/s带宽。目前单Serdes速率已达到224Gb/s，未来向448Gb/s演进。但是电互联的速率以及连接数量受到晶圆面积和工艺的限制，已逐渐接近物理极限，未来可考虑芯片直接出光，采用光互联的方法，进一步提升Scale-up网络带宽。

其次，Scale-up网络物理层需要针对时延优化。Scale-up网络静态时延与通信距离和FEC等链路固有特性相关。电连接或光连接传输时延大约为5ns/m，单机柜内64个GPU连接距离不超过3m，而1024个GPU需要部署16个机柜，连接距离在30m以内，这将带来150ns时延。因此Scale-up网络需要限定通信距离。

FEC是一种在链路中增加数据冗余从而减少数据传输错误的技术，增加了数据冗余的同时也增加了传输时延。RS（544,514）是高速网络中常用的FEC方案，适用较长的通信距离。在通信链路质量良好的情况下，Scale-up网络更短的通信距离可采用轻量化FEC，从而降低时延。

网络拓扑也会影响到Scale-up网络时延。Scale-up网络中每增加一层交换，就会增加一次转发时延。因此Scale-up网络需尽可能减少网络层数，优先选择单层交换网络。

图4 Scale-up网络物理层优化

2.2 链路层

相对标准以太网或者PCIe总线，Scale-up网络需要在协议上精简，以降低协议开销。在超节点内部场景中，NVLink的传输效率可达94%，以太网在256Byte payload下的理论传输效率为约为82%。以太网UDP/IP头部在超节点内场景不是必须选项。

采用固定帧长报文，统一内存编址，极简报文格式，极简链路层设计，可简化和降低数据报文处理时延，减少晶圆处理逻辑。

流控机制对Scale-up网络通信延迟有显著影响。基于优先级的流控PFC通过优先级暂停机制保障高优先级业务无损传输，但对低优先级流量可能引入较大延迟抖动‌；‌基于Credit的流控CBFC通过链路级信用机制实现零丢包，结合自适应路由优化带宽利用率‌。相较而言，CBFC更适合需要低延迟特性的Scale-up网络。

图5 基于Credit的流控机制

2.3 事务层/传输层

计算单元需要内存语义。原生内存语义通常指的是在编程语言或框架中，直接使用和控制计算机内存的机制和规则，基本操作是Load/Store/DMA等。RoCE与RDMA网络都是基于消息语义，不是专为load-store操作设计。RDMA网络支持内存语义时，需要内存拷贝、多层协议栈转换，软硬件均有较大开销。在拥塞控制与流量管理、协议开销、一致性与可靠性等方面，和支持原生内存语义的总线存在本质的差异。

引用的论文数据表明，原生内存语义通信效率是RDMA消息语义的1.76倍。因此RoCE和RDMA都是针对Scale-out的网络扩展方案，并不适用于Scale-up网络。为了支持内存语义，业界正在制定全新的Scale-up网络协议，将事务层/传输层极大简化。但在新的Scale-up网络协议生态成熟之前，基于RoCE的Scale-up网络仍将存在一段时间。

图6 内存语义和消息语义

3 Scale-up网络技术路线

Scale-up网络的概念提出以来，业界提出两种技术路线：一种是基于以太网优化，另一种是设计新型总线。

针对Scale-up网络，头部厂商同时具备GPU设计和Scale-up网络能力，推行自研路线和私有协议，包括英伟达的NVLink、华为的UB等。

基于开放标准的Scale-up网络有基于以太网、基于总线等多种协议，相关技术标准和生态发展迅速，为GPU产业的群体突破提供支撑。

表3 基于以太网和基于总线的Scale-up网络协议

4 未来趋势：技术融合与性能突破

Scale-up网络开放标准的竞争是生态的竞争。

基于以太网的Scale-up网络具有生态先机，以其标准开放和生态成熟优势，成为国内GPU厂商的现实选择。考虑到生态成熟度及安全可控需要，未来基于以太网的Scale-up网络仍将是国内市场主流。但基于标准以太网的Scale-up网络在内存语义、传输时延、传输效率等方面不能完全满足GPU大规模互连互联需求，需要根据Scale-up网络需求进行针对性的优化。

基于总线的Scale-up网络在内存语义、传输时延、传输效率等技术较优，但标准、芯片、交换设备不完善，未来生态有待观察。

基于以太网的Scale-up网络与基于总线的Scale-up网络正在技术上演进相互融合，例如基于以太网的Scale-up网络开始支持内存语义，而UALink总线采用了类似以太网的物理层，可以更好地利用以太网的线缆与光模块等PHY层产品生态。

Scale-up是计算资源的纵向扩展，通过突破硬件的性能瓶颈与细粒度的计算-通信融合提升单节点的性能；而Scale-out网络是计算资源的横向扩展，通过增加节点数量来扩展集群的能力，是粗粒度的计算-通信融合。Scale-up与Scale-out在技术、成本与场景的差异决定了两者将长期互补共存，在可预见的未来不会走向统一，但不排除在技术和架构演进中会深度融合，形成更灵活的混合扩展模式。