
随着大模型参数达到万亿级别,建立大规模智算集群的需求驱动南、北向互联性能快速提升。相较北向互联,南向互联对互联带宽性能要求更高,是目前互联效率提升的主要瓶颈,也是互联技术创新最为活跃的领域。
中国信息通信研究院信息化与工业化融合研究所总工程师 黄伟
南向互联整体发展态势
智算场景对AI芯片间互联提出高带宽、低延迟、高可靠性需求。随着大模型参数量呈指数级增长,单卡算力已无法满足海量数据处理需求,卡间互联技术成为制约大模型训练效率的关键瓶颈。当前GPU服务器架构正加速向超节点形态演进,单节点规模已扩展至数十乃至数百个GPU,由此产生的TB级数据吞吐需求和All-to-All通信模式对互联技术提出三重刚性需求:其一,物理层需突破高带宽传输极限;其二,链路层要实现微秒级低时延保障;其三,系统级需构建高可靠通信架构。特别是混合专家模型(MoE)等新型模型架构的广泛应用,使得Scale-up互联技术的优化成为行业攻关重点。
南向互联网络的多层优化为其突破八卡限制实现超节点奠定基础。GPU间的通信域已从单机内的总线域扩展到包含数十乃至数百个GPU的超节点内,这不仅需要处理Tbps级别的高效互联需求,在规模和技术复杂度上也面临挑战。超节点方案面向机内拓扑、互联协议等进行改进,提出支持大规模GPU互联的开放性标准以及基于该标准的高速接口。此外,为了进一步提升超级节点的性能和可靠性,业界普遍对互联通信的物理层、链路层和事务层进行针对性优化,包括物理层轻量级FEC实现低时延优化,链路层重传及流控、报文格式优化,传输及事务层在网计算及拥塞管理、内存语义优化等,这些优化对提升带宽、降低时延等起到至关重要的作用。
南向互联国内外技术发展情况及问题
英伟达凭借私有的NVLink高速互联技术,在全球保持领先态势。当前,英伟达已推出最新第五代NVLink技术,并在其最新产品GB200得以应用,卡间互联速率可达1800GB/s,并搭配其高速交换机NVSwitch,实现灵活且高效的数据传输拓扑,一级Switch实现72卡互联,两级Switchs可实现576卡互联,率先实现了超级节点产品形态。此外,英特尔、AMD、微软、谷歌以及Meta等国际头部企业联合成立UALink联盟,AMD、博通等供给侧企业贡献互联、网络设备等关键技术,微软、Meta等需求侧企业提供海量应用场景,意图通过产业链上下游协同,以开放标准挑战英伟达既有领先态势。
单机内卡间互联方面,国内GPU厂家通过私有协议实现8卡互联互通,互联拓扑较为简单,在互联规模与带宽性能扩展上面临挑战。国内GPU厂家主要采用基于PCIe、CXL等演化的私有协议,尚未对底层协议进行优化,且仅限于自家GPU互联,目前主要存在三条技术路线。一是私有互联协议,其优点在于可针对自身产品进行定制研发和优化,实现高互联速率,但各家的方案无法兼容,卡间互联速率普遍能达到400GB/s(英伟达A800水平)。二是基于RoCEv2协议改进的方案,该方案和既有的以太网交换技术天然兼容,生态系统成熟,规模化部署难度较小,但存在互联延迟较大、编码效率和众核调度效率不高等问题。三是采用基于PCIe的互联方案,该方案无需额外设计或更改硬件,适用性强,但带宽与私有互联协议相差较大,如最新的PCIe6.0在16通道下的双向带宽仅有256GB/s,不及当前多数私有协议的50%。
超级节点卡间互联方面,国内已有多家整机及网络厂商尝试推出基于Link+Switch的解决方案,互联规模及带宽大幅提升,并致力于研发Scale-up新型高速互联的统一标准,从而实现千卡级别的互联规模,以及800GB/s的带宽性能。其中,新华三基于自身在网络和计算领域的技术优势,推出集互联协议、计算节点、交换设备为一体的超级节点解决方案。中国移动联合行业企业主导的卡间OISA互联标准,基于总线技术路线,包括大规模GPU对等互联及高效物理传输等解决方案。此外,各领域厂商也在着力推动差异化的技术布局,如:UB标准,从卡间网络发展至卡间与机间,基于高速网络协议建立分布式全对等互联架构;OLink标准,基于以太网技术路线,对标国际组织UEC,对事务层语义操作、物理层FEC以及软件接口层框架进行优化;ALink标准,明确了从协议到芯片再到设备和软件的全链路的生态系统,支持UALink国际标准,数据面互连采用UALink协议。
国内卡间互联技术分散、互不兼容,难以形成发展合力,成为制约我国高速互联技术发展的主要问题。当前,我国卡间互联技术呈现“多轨并行、生态割裂”的发展态势,已成为制约国产智算体系突破的关键因素。
第一,技术路线碎片化削弱整体竞争力。国内头部企业各自为战,形成多套私有协议体系,虽单点性能可达英伟达A800水平,但协议互不兼容导致设备间难以协同。这种技术孤岛现象不仅造成重复研发投入,更使国产方案在与国际主流生态竞争时难以形成合力。
第二,架构耦合性抬高生态统一门槛。现有私有协议均与芯片底层设计深度绑定,涉及物理层编码、链路层流控等核心模块的定制化开发。若强行推动协议统一,企业需重构芯片架构与配套软硬件体系,技术迁移成本高达数代产品周期。这种“路径依赖”客观上迟滞了标准协同进程。
发展建议
我国GPU卡间互联技术的突破需以“标准统一、生态开放、渐进融合”为核心原则,通过政策引导、技术协同与产业联动,将分散创新转化为生态合力。
一是以开放标准为牵引,加速技术路径收敛。聚合头部企业、科研院所及用户单位,共同制定兼容现有方案的开放式互联协议框架,在物理层、事务层等核心模块设定统一接口规范,同时允许厂商在链路层保留差异化优化空间,兼顾生态统一性与技术创新性。
二是实施分层推进策略,降低技术迁移成本。短期内可通过Chiplet等方式对计算、互联单元进行解耦,并在互联单元内支持不同私有协议间的数据包转译,缓解生态割裂问题,长期可利用市场选择,最终确定统一的协议路线,实现互联解决方案的完全统一。
三是构建开放认证体系,推动生态国际化。建立第三方兼容性认证中心,对符合统一标准的设备进行性能测试与互操作性认证,并纳入政府采购目录,激励企业技术适配,同时积极参与国际标准制定,推动国内协议与UALink、UCIe等国际标准互联互通,提升全球话语权。