
摘要
Scale-up网络是算力资源纵向扩展网络,用于提供高带宽、低时延与高可靠的GPU互联网络,压缩GPU之间的通信开销,提高算力资源利用率。本文分析了Scale-up网络的技术要求,指出当前RoCE v2与PCIe都不能完全满足Scale-up网络的技术要求,需要从物理层、链路层及事务层等各个层面做优化。系统梳理了Scale-up网络国内外最新的标准化进展,并对未来Scale-up网络趋势做出预判。
关键词
智算网络;并行计算;纵向扩展;大模型;内存语义;计算-通信融合
引言
AIGC爆发式发展对基础设施的需求日益增长。过去5年,从BERT到GPT-4,数据规模增长了约4000倍,参数规模增长了约1.6万倍。随着大模型参数量突破万亿级,当前大模型的数据量远超单台1机8卡GPU服务器计算能力,必须要把数据处理和存储分散到多个GPU中,需要千卡万卡构建的GPU集群来做支撑。GPU集群有两种算力资源的扩展策略:纵向扩展Scale-up和横向扩展Scale-out,具体选择取决于训练或推理场景对算力密度、互联带宽及扩展规模的需求差异。
本文详细描述了Scale-up网络的高带宽、低时延与高可靠性的技术要求,应对这些技术要求Scale-up网络需要在物理层、链路层及其他层实现的各项关键技术,指出了Scale-up网络的技术路线,简要介绍了当前UALink、OISA等标准协议,并对未来Scale-up网络技术趋势进行的研判。在性能需求与生态开放的双重驱动下,随着开放标准协议制订完成与产业生态的成熟,Scale-up网络正在重塑下一代AI算力基础设施格局。
1 Scale-up网络技术要求
大模型需要采用多机多卡集群的方式进行训练,主流的并行训练方式有数据并行、模型并行(张量并行、流水线并行)、专家并行等。张量并行和专家并行的并行计算方式,每次迭代数据量达几百GB,GPU互联需要超高带宽和极低时延,以压缩GPU之间的通信开销成本,此时纵向扩展成为必然——Scale-up网络是一种追求极致性能的算力资源纵向扩展网络。
表1 主流并行计算方式及算力资源扩展策略

1.1 高带宽
算力、算据、算法需求在大模型时代呈现爆炸式增长,传输链路带宽的提升速度远远落后于AI算力的快速增长。参数量、数据量的指数级增长带来的内存墙问题。
由于内存的读写速度相对较慢,处理器在等待数据从内存中读取或写入时会出现空闲状态,从而限制了系统的性能,即使增加处理器数量和核数,也无法有效提高整体的计算能力。高带宽是解决内存墙问题的关键,也是Scale-up网络面临的挑战。
图1 AI与内存墙
图2 并行计算计算-通信耦合
Scale-up网络需要多大带宽?这个问题需要考虑单GPU的吞吐量单GPU的计算吞吐量、通信数据量和训练流程设计来综合评估。假设计算时间可以与通信时间完全重叠,则可近似计算出所需带宽下限:
B = D×N / T (单位:GB/s)
其中,
B:网络带宽需求,单位为 GB/s。
D:单次通信的数据量(如梯度、参数同步量),单位为 GBytes。
T:单次迭代的计算时间(即GPU完成一次前向+反向传播的时间),单位为 秒。
N:通信频率(即单次迭代中需要通信的次数,例如梯度同步次数)。
实际场景中,通信时间和计算时间不可能完全重叠,通信时间还会受协议开销、网络延迟、并行通信的效率等因素影响。PCIe带宽已不能满足Scale-up网络的带宽需求,为了解决这个问题,英伟达开发了NVLink总线。
1.2 低时延
Scale-up网络的设计目标是实现细粒度的计算-通信融合,需要低时延的核心原因在于其底层硬件架构和协议设计直接支持内存级操作与计算任务的无缝协同。具体如下:
1)Scale-up需要支持细粒度的内存语义通信,GPU需要基于Load/Store/Atomic等内存级操作协议,通过Scale-up网络直接访问远端显存,实现类似本地内存的读写效率。若延迟过高,会导致数据同步阻塞,拖慢训练效率;
2)在多GPU并发更新参数时,梯度累加等操作需快速完成以避免数据竞争。高延迟会破坏全局一致性,引发训练错误;
3)GPU采用多种方法隐藏通信开销。若Scale-up网络延迟过高,通信时间超过计算时间,会导致GPU计算形成空泡。
网络时延可以分为静态时延和动态时延两部分。静态时延包括信号传输、转发和交换时延,与互联及设备性能相关;动态时延与网络吞吐量和利用率等相关,受网络负载和流量控制策略的影响,会随时间和网络状态变化。通常要求Scale-up网络时延控制在1us以下。根据Nvidia技术白皮书及IEEE等相关论文研究,RoCE v2直连显存到显存时延超过1.5us,这个时延已影响到高性能GPU的算力利用率。
1.3 高可靠
高可靠性是Scale-up网络的基本需求,因为计算任务的确定性,网络异常都会导致计算时长增加甚至无法完成任务。
首先,Scale-up网络支持GPU间内存原子操作(如梯度累加,需依赖原子操作保证多节点数据一致性),单次网络传输错误可能引发全局数据不一致,导致模型收敛失败。
其次,Scale-up网络是细粒度的计算-通信强耦合,反向传播梯度同步需在微秒级窗口完成,网络拥塞、丢包或重传会破坏流水线并行节奏,使整体计算效率下降。
第三,保障持续训练任务不中断。AI大模型训练通常需数千GPU连续运行数周,单次网络中断可能导致数天计算资源浪费。
综上,Scale-up网络是细粒度的计算-通信强耦合,需满足高带宽、低时延、高可靠技术要求,以压缩通信开销,以解决传统网络架构面临算力墙、通信墙、能耗墙问题。
表2 Scale-up网络技术要求

2 Scale-up网络关键技术
应对Scale-up网络高带宽、低时延、高可靠的技术要求,需要从物理层、链路层、以及事务层等其它上层逐层分析。
图3 Scale-up网络关键技术分层分析
2.1 物理层
Scale-up网络物理层首先要考虑带宽问题。GPU采用提升Serdes速率和扩展连接数来来缓解内存墙问题,让GPU算力发挥最大效能。例如英伟达单GPU带宽已达到1.8TB/s带宽。目前单Serdes速率已达到224Gb/s,未来向448Gb/s演进。但是电互联的速率以及连接数量受到晶圆面积和工艺的限制,已逐渐接近物理极限,未来可考虑芯片直接出光,采用光互联的方法,进一步提升Scale-up网络带宽。
其次,Scale-up网络物理层需要针对时延优化。Scale-up网络静态时延与通信距离和FEC等链路固有特性相关。电连接或光连接传输时延大约为5ns/m,单机柜内64个GPU连接距离不超过3m,而1024个GPU需要部署16个机柜,连接距离在30m以内,这将带来150ns时延。因此Scale-up网络需要限定通信距离。
FEC是一种在链路中增加数据冗余从而减少数据传输错误的技术,增加了数据冗余的同时也增加了传输时延。RS(544,514)是高速网络中常用的FEC方案,适用较长的通信距离。在通信链路质量良好的情况下,Scale-up网络更短的通信距离可采用轻量化FEC,从而降低时延。
网络拓扑也会影响到Scale-up网络时延。Scale-up网络中每增加一层交换,就会增加一次转发时延。因此Scale-up网络需尽可能减少网络层数,优先选择单层交换网络。
图4 Scale-up网络物理层优化
2.2 链路层
相对标准以太网或者PCIe总线,Scale-up网络需要在协议上精简,以降低协议开销。在超节点内部场景中,NVLink的传输效率可达94%,以太网在256Byte payload下的理论传输效率为约为82%。以太网UDP/IP头部在超节点内场景不是必须选项。
采用固定帧长报文,统一内存编址,极简报文格式,极简链路层设计,可简化和降低数据报文处理时延,减少晶圆处理逻辑。
流控机制对Scale-up网络通信延迟有显著影响。基于优先级的流控PFC通过优先级暂停机制保障高优先级业务无损传输,但对低优先级流量可能引入较大延迟抖动;基于Credit的流控CBFC通过链路级信用机制实现零丢包,结合自适应路由优化带宽利用率。相较而言,CBFC更适合需要低延迟特性的Scale-up网络。
图5 基于Credit的流控机制
2.3 事务层/传输层
计算单元需要内存语义。原生内存语义通常指的是在编程语言或框架中,直接使用和控制计算机内存的机制和规则,基本操作是Load/Store/DMA等。RoCE与RDMA网络都是基于消息语义,不是专为load-store操作设计。RDMA网络支持内存语义时,需要内存拷贝、多层协议栈转换,软硬件均有较大开销。在拥塞控制与流量管理、协议开销、一致性与可靠性等方面,和支持原生内存语义的总线存在本质的差异。
引用的论文数据表明,原生内存语义通信效率是RDMA消息语义的1.76倍。因此RoCE和RDMA都是针对Scale-out的网络扩展方案,并不适用于Scale-up网络。为了支持内存语义,业界正在制定全新的Scale-up网络协议,将事务层/传输层极大简化。但在新的Scale-up网络协议生态成熟之前,基于RoCE的Scale-up网络仍将存在一段时间。
图6 内存语义和消息语义
3 Scale-up网络技术路线
Scale-up网络的概念提出以来,业界提出两种技术路线:一种是基于以太网优化,另一种是设计新型总线。
针对Scale-up网络,头部厂商同时具备GPU设计和Scale-up网络能力,推行自研路线和私有协议,包括英伟达的NVLink、华为的UB等。
基于开放标准的Scale-up网络有基于以太网、基于总线等多种协议,相关技术标准和生态发展迅速,为GPU产业的群体突破提供支撑。
表3 基于以太网和基于总线的Scale-up网络协议

4 未来趋势:技术融合与性能突破
Scale-up网络开放标准的竞争是生态的竞争。
基于以太网的Scale-up网络具有生态先机,以其标准开放和生态成熟优势,成为国内GPU厂商的现实选择。考虑到生态成熟度及安全可控需要,未来基于以太网的Scale-up网络仍将是国内市场主流。但基于标准以太网的Scale-up网络在内存语义、传输时延、传输效率等方面不能完全满足GPU大规模互连互联需求,需要根据Scale-up网络需求进行针对性的优化。
基于总线的Scale-up网络在内存语义、传输时延、传输效率等技术较优,但标准、芯片、交换设备不完善,未来生态有待观察。
基于以太网的Scale-up网络与基于总线的Scale-up网络正在技术上演进相互融合,例如基于以太网的Scale-up网络开始支持内存语义,而UALink总线采用了类似以太网的物理层,可以更好地利用以太网的线缆与光模块等PHY层产品生态。
Scale-up是计算资源的纵向扩展,通过突破硬件的性能瓶颈与细粒度的计算-通信融合提升单节点的性能;而Scale-out网络是计算资源的横向扩展,通过增加节点数量来扩展集群的能力,是粗粒度的计算-通信融合。Scale-up与Scale-out在技术、成本与场景的差异决定了两者将长期互补共存,在可预见的未来不会走向统一,但不排除在技术和架构演进中会深度融合,形成更灵活的混合扩展模式。