总17期
Forum    讲堂
Forum    讲堂
H3C SeerBlade:开创网络智能化未来(上)
文/陈伯超
分享

SeerBlade的诞生

人工智能作为未来十年最具冲击力的科技发展趋势之一,将为各行各业带来巨大变革。当前,人工智能在信息通讯、工业制造、安防、金融、自动驾驶、医疗健康等众多领域的蓬勃发展,推动生产效率的提升,也带来生态和商业模式的全新变革。2019年政府工作报告首次提出将“智能+”作为国家战略,为传统产业转型升级和新兴产业的发展赋能。

网络作为承载智能应用的基础设施,其本身也急需实现智能化升级。据著名咨询公司IDC发布的研究报告,互联网数据每年增长一倍,到2020年数据总量将达到35ZB。随着网络设施规模以及网络业务的不断快速增长,网络运营将面临越来越大的压力和挑战,当前以人工方式为主的管理模式难以支撑未来网络的高效和安全运营需求。

网络智能化的实现,需要通过对网络数据、业务数据、用户数据等多维数据的感知,基于大数据、大算力和大算法三大基础能力,形成网络自身的高度自治能力。然而,传统的网络设备只支持数据的“透明转发”,加之网络处理器极低的浮点运算性能,难以支撑“人工智能+网络”的融合。新华三自主研发的网络智能计算模块—SeerBlade,通过多项创新技术,完美实现网络与AI的融合,开创智能网络演进的未来。

打造新型超融合网络

要实现设备的AI能力,必须具备强大的数据运算性能,这在众多AI应用中已经得到充分论证,网络设备也不例外。为了解决网络自身的算力问题,最成熟和便捷的方式就是引入IT架构中的CPU/GPU等高算力处理器,让网络与IT能力进行融合。这听起来有些像目前业界已经成型的超融合产品设计,但在新华三的眼中,传统超融合因其天然倾向于IT架构的设计,并不适用于智能网络应用。现有超融合架构更关注的是计算/存储的融合,追求的是单位体积内最大的运算和存储能力,再通过刀片方式增加网络交换模块与外部网络连接。这种方式适用于算力完全用于本地数据处理的场景,即AI所需的训练数据源和运算资源完全本地化,网络只用于输出运算成果。

而前面提到,网络智能化需要大量网络业务数据的多维感知。也就是说,网络AI的训练数据源散布在整个网络内,无论从数据量还是复杂程度,相对于普通业务AI应用都有大幅的提升。传统超融合架构中网络能力相对弱化,这种差异在网络智能管理中将被放大,依靠刀片交换模块的能力,不具备将大量训练数据源传输到本地的吞吐能力,更无法同时承担运算成果以及网络策略的输出能力。

因此,要实现网络设备的AI能力,首先要具备充足的通道资源来传输训练数据,这一重任毫无疑问的落在了新华三数据中心旗舰核心交换机—S12500身上。将融合了AI能力的模块插入S12500,与网络业务线卡通过S12500强大的交换能力进行对接,就可以实现网络训练数据的高速采集,解决了传统超融合的网络带宽瓶颈问题,这是新华三眼中网络智能化的实现形态—SeerBlade智能网络模块。

创新硬件与完美工艺的融合

SeerBlade插卡的物理形态,带来了网络连接性能和扩展性的明显优势,但同时其体积仅相当于传统超融合产品的1/5甚至更小,这又在硬件设计和加工等多个方面提出了严峻挑战。如果采用传统的制造技术,不可能在如此小的体积内同时融合最强的网络和运算性能。新华三利用多项创新的设计,完成了这个看似不可能的任务。

● B2B双面加工技术

在传统的设备制造工艺中,采用的都是PCB单面加工工艺,方案成熟且加工成本低。但如果要在网络插卡的狭小空间内部署高性能的算力处理器和配套的存储能力,必须采用更为先进的双面加工技术。

在此之前,从未有网络厂商尝试过B2B双面加工技术。双面加工意味着以往的平面设计变成立体设计,PCB双面的器件必须经过精密布局和复杂的验证,既要同时工作,又不能相互干扰,这种以往只在高端制造业才会使用的技术,对于网络厂商而言,将是无比艰难的探索过程。

新华三集合了数十位硬件工程精英,通过上百次建模和测试,历经多次失败重制,终于首次实现网络器件与IT器件在一张PCB板上双面布局。将以往需要多台物理设备才能提供的计算/存储/网络能力,融合在一张40cm×45cm大小的电路板上,这不但创造了网络设备制造业的历史,也是集成电路设计领域的巨大突破。

● 100%无损数据通道

将CT与IT进行融合,如果只是将元器件放置在一起,而不提升二者之间的数据传输效率,就并没有解决前文提到的传统超融合架构的问题。S12500作为目前业界性能最强的数据中心核心交换机,其数据吞吐性能毋庸置疑,但能不能解决CT/IT通道速率不匹配问题,才是评价融合架构价值的重要因素。

CT/IT架构中的通道速率,存在标准上的不一致。网络设备中Serdes速率目前是25Gbps,而IT设施中PCIe通道速率是8Gpbs。以100Gbps速率传输数据为例,在网络侧需要使用4条25Gbps Serdes,在到达IT侧时,则需要使用16条PCIe通道来接收,占用128Gbps带宽资源,有效利用率仅有78%。更多的训练数据意味着更精准的AI训练成果,单位时间内22%的数据传输损耗对于AI应用而言影响巨大,尤其是以网络数据作为训练源的网络AI而言。

新华三耕耘网络行业多年,积累了大量的芯片开发技术和底层协议经验,通过一颗专用芯片将网络侧数据进行切片,并以32Gbps/每通道的速率向IT侧发送,实现了4通道—16通道的100%无损数据传输,目前业界只有新华三能够实现这一技术。

智能能耗管理

任何一种AI应用,都无法摆脱对于高性能处理器的需求。高性能意味着高能耗,为了实现更高的运算能力,SeerBlade内布置了2路Intel最新的可扩展架构的X86处理器,以及2块高性能GPU用于AI训练,满负荷功耗超过2000W。

由于SeerBlade采用S12500交换机的电源系统进行供电,为了降低对整框功耗的影响,最大程度降低SeerBlade的功耗水平,新华三在SeerBlade内放置了一颗专用的能耗管理CPU。这块CPU可以实时采集各处理器的进程情况和负载水平,均衡不同器件之间的功耗占用,使SeerBlade以最高能效比长期运行。同时,在S12500交换机中安装了多块SeerBlade插卡的情况下,多块能耗管理CPU之间还可以相互通信,与S12500机框引擎内的能耗管理程序进行协同运算,平衡多块SeerBlade的训练强度,提供整框的最优效能表现。

结束语

新华三以自己对网络智能的理解,结合上述多项创新设计技术,开发出了业界首款智能网络模块—SeerBlade。可以从以下几个方面提供强劲的性能表现:1、浮点运算能力达到123TFlops,与传统网络处理器相比,算力提升百万倍以上。并可以通过多块插卡实现高性能集群训练能力,足以应对最复杂的网络业务需求。2、数据特征提取速率达到200Gbps,比此前业界最高水平提高100%以上。3、流量分析能力高达11万条流/每秒,一块SeerBlade即可以满足万台服务器级别的数据中心全网流量分析需求。4、内置最高30TB存储能力,可存储大量网络数据快照和历史数据库,用于网络智能调优和故障自动定位。

拥有了最强的运算性能,SeerBlade将给网络带来怎样的改变?请看下期介绍。

分享到
关闭