
随着人工智能、科学计算等智算场景的快速发展,海量非结构化数据的实时处理与超大规模模型训练对存储系统提出了前所未有的挑战。分布式存储技术凭借其横向扩展、多节点协同和全局资源池化的特性,正成为支撑智算基础设施的核心基座。通过重构的架构设计和底层协议优化,新华三Polaris分布式存储系统实现了存储性能的突破性跃迁:在带宽维度上,依托全闪存硬件与RDMA网络构建的超高速数据通道,可稳定提供百GB级带宽性能,充分释放GPU集群的计算潜力;在IOPS维度上,通过独创的元数据管理框架,将随机读写性能提升至百万级指标,完美匹配AI训练、实时推理等高并发场景需求。这两大技术支点不仅重新定义了存储性能边界,更为智算时代的数据密集型应用构建了坚实可靠的数据基座。
Polaris如何应对AI训练中的高带宽存储挑战
AI训练为什么需要存储提供高带宽能力
随着AI市场的爆炸性增长和大模型如GPT系列等的涌现,AI领域对算力和存储的需求呈指数级增长。这种需求的快速扩张不仅源于模型训练数据的庞大体量,还由于这些模型包含数以十亿计乃至万亿的参数,需要强大的计算能力来支持其训练和运作。
在AI训练过程中,需要在极短的时间内处理大量的数据,包括但不限于模型训练数据、参数更新和模型输出结果。这一过程的高效执行依赖于存储系统的良好表现,尤其是其带宽和延迟性能,直接决定了AI训练的速度和效率。事实上,随着各种高性能AI应用的不断涌现,这些应用对数据传输和处理的效率提出了更高的要求。
存储系统在AI应用的训练阶段尤为关键。以当前的大语言模型(LLM)为例,如GPT-3和GPT-4等模型,其参数规模的迅速增长已经超越了传统存储系统所能轻松处理的范围。这些模型的参数量由数十亿转向数千亿,甚至上万亿,导致对存储系统的带宽和响应时间方面的要求大幅提升。同时,这种增长也对数据处理速度和存储稳定性提出了更严苛的需求,以便能在训练过程中实时、高效地读取和存储数据。
在大模型开发过程中,训练中断是常见的现象,可能由诸如网络问题、硬件故障及其他未知原因引起。为了减小损失并提高效率,多数大模型厂商会使用“检查点”(Checkpoint)技术。通过定期保存当前的训练状态,一旦系统中断可从最后的检查点继续,从而避免重新训练整个模型。然而,这一过程本身是一个同步阻塞的过程,意味着当GPU执行检查点的存储操作时,无法进行其他计算,直接导致训练暂停。
此外,AI大模型的训练过程是耗资巨大的。据报道,微软Azure为训练ChatGPT构建了一个超过1万枚英伟达A100 GPU芯片的庞大计算集群,其完整的模型训练成本高达数千万美元。因此,在训练阶段,对每一分钟的GPU利用率的优化极为关键,以避免不必要的开销浪费。
为了实现高效稳定的训练,AI开发者需要在算力和存储资源之间取得平衡。特别是在执行检查点操作时,存储系统必须应对高并发和高吞吐量的挑战,以确保GPU资源能够最大限度地发挥其作用。这不仅关系到大模型训练的效率,也影响整个AI计算集群的经济效益。
Polaris如何应对高带宽存储挑战
众所周知,Checkpoint本质上是一组大小从GB到TB不等的大型数据文件。在处理这些Checkpoint文件时,优化读写性能显得尤为重要。从存储角度来看,这一优化主要集中在提升大I/O操作的效率。Polaris在软件方面,通过高性能并行客户端减少东西向数据量的转发;通过智能分流、RDMA技术缩短IO路径;通过内存零拷贝技术减少IO路径上的数据拷贝。这些多管齐下的优化策略,使Polaris释放了存储系统的性能潜力,全闪单节点带宽超过50GB/s,确保在处理Checkpoint文件时能保持高效、稳定的性能水平。
高性能并行客户端
原有的标准协议架构,1个标准的NFS客户端只能与一个存储节点相连,客户端访问的数据需要在存储节点间二次转发,才能实现跨节点的数据访问。
而Polaris支持高性能并行客户端(EPC),通过并行客户端可直接访问多个存储节点,无需通过存储间节点转发,缩短IO路径,降低数据访问时延。
图1 访问方式对比:NAS vs 并行文件系统
智能分流技术
在协议层将大小IO分开处理。小IO写入Cache后,即可返回写请求,小IO性能得到提升。大IO则绕过缓存,请求下发到持久化层后,由持久化层直接通过RDMA读命令,从协议层拉取数据,缩短IO路径,减小网络、内存和硬盘带宽的开销,提高大IO落盘效率。
大IO直通持久化层,经过副本/EC策略后落到持久化介质,节省了Cache占用和相应的CPU资源开销。
图2 智能分流技术图示
全RDMA互联
与传统的TCP/IP通信机制相比较,RDMA技术通过运用内核绕行(Kernel Bypass)和零拷贝(Zero Copy)技术实现了关键性能优化。这种优化显著降低了网络传输延迟,并有效减少了CPU使用率,进而缓解了内存带宽瓶颈问题,充分提升了系统对带宽资源的利用效率。
图3 RDMA技术优化存储性能
内存零拷贝
传统用户态设计中,1次数据传输过程,发生了4次上下文切换和4次拷贝
第一次拷贝,把磁盘上的数据拷贝到操作系统内核的缓冲区里,这个拷贝的过程是通过DMA搬运的。
第二次拷贝,把内核缓冲区的数据拷贝到用户的缓冲区里,于是我们应用程序就可以使用这部分数据了,这个拷贝到过程是由CPU完成的。
第三次拷贝,把刚才拷贝到用户的缓冲区里的数据,再拷贝到内核的 socket 的缓冲区里,这个过程依然还是由CPU搬运的。
第四次拷贝,把内核的Socket缓冲区里的数据,拷贝到网卡的缓冲区里,这个过程又是由DMA搬运的。
Polaris采用了全用户态设计,实现了内存零拷贝。在Polaris存储系统中1次数据传输过程,不发生上下文切换,仅需要2次DMA拷贝。无CPU拷贝,减少了CPU的开销,因此提升了系统性能。
图4 全用户态设计,实现内存零拷贝
IOPS是什么
IOPS是Input/Output Per Second的缩写,即每秒的输入输出量(或读写次数)。IOPS是衡量存储设备性能的一个重要指标,它表示设备每秒可以执行多少次数据读写操作。IOPS越高,意味着存储设备处理数据的速度越快,这对于需要快速数据访问的应用程序至关重要。
AI训练为什么需要百万IOPS
近年来,AI领域取得了显著的发展,成为广泛关注的热点。AI的工作负载主要由两个关键阶段组成:训练和推理。在训练阶段,存储系统的性能对于整体效率至关重要,特别是在两个方面:训练数据的加载和检查点(checkpoint)的保存。前文中已讨论了Polaris通过加快检查点写入速度以减少GPU等待时间,从而提升训练效率。检查点是一组GB到TB级不等的大文件,快速保存检查点对存储的要求是提供高带宽能力。那么训练数据的特点是什么?对存储的要求又是什么呢?
图5 AI训练对存储的需求
以Nvidia DGX SuperPOD的H100和A100推荐存储性能为例,可以更清晰地了解AI服务器在处理自然语言模型时对存储系统的要求。在自然语言处理任务中,数据集通常由大量小文本文件组成,平均文件大小约为2KB。对于A100单节点AI服务器,其推荐的读带宽为2GB/s。这意味着,为了充分利用这一带宽,系统需要每秒处理多达100万个小文件的读取操作。
同样,H100单节点AI服务器在满带宽条件下的需求更为显著,每秒需要读取多达200万个小文件。这些数据表明,AI服务器在自然语言模型训练中对存储系统提出了极高的性能要求,尤其是在小文件的高频读取方面。存储系统必须具备极高的并发处理能力和低延迟,以确保在如此高的文件访问频率下仍能保持稳定和高效的性能。
表1 不同GPU在处理自然语言模型时对存储系统的要求
超百万IOPS是如何炼成的
处理海量小文件的读写操作通常会带来高额的I/O开销和沉重的元数据管理负担。在这些操作中,元数据处理往往占据了很大的比例,可能达到整体操作的70%至80%。这使得元数据性能成为限制系统I/O操作次数(IOPS)的主要瓶颈之一。
为应对这一挑战,Polaris系统引入了一种高效的元数据管理框架,能够提供百万级的IOPS性能。首先,Polaris采用了一种全局分散的元数据处理策略,将元数据均匀分布到多个节点进行处理。这种方法有效地消除了单点瓶颈,极大地提高了系统的并发处理能力。
其次,Polaris引入了全局共享的分布式缓存策略,为业务I/O提供了一个共享的分布式缓存加速资源池。用户的写请求在被写入该缓存池后立即返回成功确认,从而显著提升了请求的响应速度。在数据落盘时,Polaris通过ROW(Redirect-on-write,写时重定向)技术,将随机的小I/O操作聚合成大I/O进行顺序写入。这不仅有效地减少了EC(纠删码)场景下的写惩罚,还降低了元数据操作次数及CPU的开销,同时减少了容量浪费。
这些技术应用显著提升了Polaris在处理小文件时的性能表现,使其能够更高效地应对海量小文件操作带来的挑战。
全局分散的元数据处理方式
MDS(元数据服务)采用全主模式,每个元数据节点提供n个VMDS服务。
每个VMDS处理归属自己的元数据,处理能力随硬件资源提升线性提升。
目录A创建后,系统会为其自动生成x个虚拟目录
虚拟目录通过Hash算法随机打散到VMDS上。每个虚拟目录对应固定的VMDS服务(假设虚拟目录1对应的元数据服务是VMDS n)。
当向目录A写入文件file1时,系统会根据file1的文件名称计算落到哪个虚拟目录(假设落到虚拟目录1),file1的元数据处理就自动分配到VMDS n。
图6 全局分散的元数据处理方式
全局分布式缓存&ROW技术
业务主机下发的小IO写入分布式缓存后,即返回完成,缩短IO路径
数据在分布式缓存中,随机小IO通过ROW技术聚合成大IO顺序落盘。EC场景则聚合成满条带写入持久化介质。避免了未满条带的情况下带来的写惩罚,无需将原有数据读出后计算新的校验位再写入。减少了元数据的操作次数和CPU开销,从而提升了系统性能。
结束语
在智算时代数据洪流与算力需求双重爆发的大背景下,存储系统作为连接数据价值与计算效能的核心枢纽,其性能边界直接决定了AI基础设施的整体效率上限。新华三Polaris分布式存储系统通过架构层级的颠覆性创新,以百GB级带宽和百万级IOPS的双重突破,为AI训练场景构建了全维度性能支撑体系,不仅解决了传统存储系统在扩展性、延迟和吞吐量上的固有瓶颈,更通过存储与算力的深度协同,使GPU集群的资源利用率得以大幅提升,为千亿参数大模型训练节省成本,提升效率。未来,随着AI工作负载的持续复杂化,Polaris将持续深化软硬协同创新,以存储基座的重构推动智算生态的效率跃迁,为全球AI产业提供坚实的数据动能引擎。