首页 >> 游戏 >> Meta高性能一个大网络架构之路

Meta高性能一个大网络架构之路

2023-04-11 游戏

部队虚拟化图。这么巨大的坦克部队,将改用20台800口的InfiniBand柜式以太网作为网络服务的骨干层,下大面连接100个Pod,每个Pod内布署8台40口InfiniBand HDR的以太网,借助全部都是网络服务无阻塞的CLOS虚拟化,从而超越相比之前Facebook AI坦克部队20倍耐用性近似值的增加、9倍NCCL分段近似值的只能、3倍AI数学模型建模的给定从业者训练。除此之外,坦克部队还布署了10PB的NFS的比较大的数据资料存储,46PB的块存储,共享寄存器数据资料恢复,175PB的块存储,而这一切都是以InfiniBand的网络服务借助数据资料存储的短时间存储妥善解决其设计方案。

是什么状况让InfiniBand带入Meta坦克部队的首要其设计方案呢?从InfiniBand的网络服务转变历程来看,路由器时会跟以太姆有所不同,毕竟我们现在广为人知的以太网络服务的路由器的很多其设计都是从InfiniBand这里糅合过来的。从图上可以说明了,年前在20之前InfiniBand就转变显露了万兆姆,2008年已经回溯到了40Gbps,随后平均每三年左右就时会转变显露重新系列产品。今年已经原型车了400G的NDL路由器,所以这InfiniBand带入GPU坦克部队的首选其设计方案,代际回溯也将时会变成两年十代,2023年英伟达时会发布800G的XDR路由器,2025年将发布1.6TB的GDL路由器,为消除数据资料存储错综复杂的鸿沟奠定了稳固的系统化。

三、InfiniBand 网络服务虚拟化的启示

从InfiniBand妥善解决其设计方案的全部都是景图中的,我们时会看到有路由器、以太网、线缆、网络服务前端到前端的软件电子设备,还有DPU、网关电子设备,从而不仅实现了一般性的数据资料中的心的网络服务电子设备,而且还打通了与广域网同城行业的链表,借助了软件一般性的网络服务存储妥善解决其设计方案,有方向上值得一提:

一是盒式以太网,我们共享的是1U 40口的200G以太网,相比同级别巨头增加了20%的交换只能。而且针对像Meta这样的大型卖家,单独共享了专业人士唯一20U的大大型的柜式以太网,借助颇高达800个前端口的的大大数量的交换。

二是InfiniBand共享了专业人士新基本概念的DPU路由器,借助在其业务负载上的加载和分开,认真到了前端到前端的网络服务管理与维护,最大化兼容老旧电子设备,可以让电子设备无缝连接到新十代的InfiniBand的网络服务。而这些软件的系统化之上,我们还开创性的实现了网络服务近似值这一新兴基本概念,借助在以太网上认真近似值,同时结合SHIELD、SHARP、GPU RDMADirect等动态之前,使得我们的网络服务更是加的平板和颇高效。

四、InfiniBand 是如何借助减缓近似值的?

讲到近似值,不太知晓RDMA的行业的人们可能时会困惑,一个主要职责存储的网络服务是如何借助对近似值的减缓呢?问题就在于真实的数据资料存储便是是网络服务电子设备的心里,以我们广为人知的TCP终前端发送为例,大量的数据资料、协议终前端处置都所需CPU的浅层置之不理,类似像终前端的封装、发送、自然语言读取,都所需大量的CPU的费用才能借助。在这样的机制下,10G增益下述的数据资料容量大不大的状况,CPU的人力占用不太值得注意。但是在容量大上升到100G以上的时候,我们就时会发现整个CPU的费用就时会显著提颇高。在某些过场下,CPU的消耗时会超越20多个核,来借助100G的数据资料存储。因此,在广泛链接进入到100G存储的历史背景下,消耗掉存储的CPU的人力的无疑就是在帮助近似值减缓。

RDMA就是这样一种关键技术,在通信系统上前端的链接内借助数据资料的这样一来存储,整个数据资料的可用CPU是基本上不时会置之不理,不仅提颇高了CPU的费用,而且也使得CPU不时会带入数据资料存储的难题,使得我们的数据资料存储可以向200G、400G乃至1TB的数据资料的回溯。

从图上我们可以说明了,对于一个普通的链接当并未用到RDMA关键技术的时候,由于CPU要主要职责大量的协议的费用处置,使得有47%的人力工作在Kernel态下,而只有大概50%的人力用作程序的近似值,限制了整个链接的行业引入。当如果我们用到RDMA关键技术之前,使得大量的消耗CPU人力的数据资料大面基本上被加载在路由器上,我们就可以只能压制在Kernel的人力在CPU的12%,将用户态的CPU人力借助翻倍。这样不仅将整个存储的耐用性有利于提颇高,同时腾显露来的CPU的人力又可以只能布署更是多的近似值的负载,借助了整个增益的增加的同时,又提颇高了其业务的布署,有利于提颇高了整个链接的承载力。

另外,如何对GPU借助减缓呢?

现在随着AI关键技术的短时间盛行,GPU的行业也越发越来越不可或缺,而且在GPU上由于有成百上千的核要认真近似值,对数据资料存储的需欲量就时会更是大。在CPU链接打算广泛向100G过渡的时候,GPU的链接200G的网络服务已经带入标配,并且我们打算向400G乃至800G的网络服务过渡。因此GPU对网络服务存储的需欲量时会更是为迫切。

妥善解决其设计方案除了所需像RDMA这样的关键技术之外,还所需有利于引入在网络服务数据资料大面上的制约,让GPU追上运转。在标准的GPU链接的虚拟化上,我们打算到GPU是以PCIe的作法和CPU展开网络服务系统的,在这种虚拟化下就立即了GPU在链接数据资料存储时,所有的数据资料都要经过CPU。

从上图只能知晓到,如果是这样的这种存储作法,跨链接错综复杂的GPU的数据资料存储所需借助五步的数据资料拷贝。首先,链接内部的GPU的XT要把自己的数据资料通过PCIe链路存储到本地的CPU的寄存器上,然后日后由本地的CPU寄存器借助数据资料拷贝,拷贝到专门的RDMA存储的管道的寄存器上。然后日后通过RDMA的关键技术,使得这个数据资料从本台链接的寄存器存储到另外一台链接的寄存器,之前日后由另一台链接的寄存器借助拷贝,拷贝到和本地GPUXT交互的寄存器上。之前日后由这部分的数据资料拷贝到GPU的XT上。五步的数据资料拷贝,我们时会看到这个可用时会越发十分的复杂,而且中的间的CPU寄存器等等都时会带入数据资料发送的难题。

要妥善解决这个问题,所需GPU Direct RDMA的关键技术,该关键技术可以借助让GPU和路由器这样一来bypass掉CPU,借助路由器和GPU错综复杂的数据资料直连。这样只所需一步的数据资料拷贝,就可以让西北面发送前端GPU的数据资料从它的XT中的这样一来一步跳到借此前端的GPU的XT内,借助数据资料的短时间拷贝。比较非常简单了流程,提颇高了权重,借助对GPU行业的减缓的效用。

用到了GPU Direct RDMA关键技术之前,其对AI坦克部队可以借助90%的权重的减省,4K以上终前端大小的message存储的I/O增益借助了十倍的耐用性的增加。同时在这样网络服务耐用性大幅增加的前提下,对AI坦克部队的分段近似值的侦查借助了一倍以上的耐用性改进的效用,大幅有利于提颇高了AI坦克部队的效能,改善了投入产显露比。也正是这个状况,导致了Meta在元时空开前端坚定地要用到InfiniBand的网络服务作为专业人士最大数量AI坦克部队的网络服务其设计方案,从而证实了InfiniBand的网络服务减缓GPU近似值的效用。

以上我们从路由器的视角上阐述了InfiniBand如何机遇性的减缓CPU和GPU近似值,当然,那作为网络服务中的甚为更为不可或缺的以太网,InfiniBand是如何减缓网络服务近似值的?这里所需提到InfiniBand的行业SHARP了。

我们打算到AI从业者训练处理过程中的有着大量的AllReduce的可用,含蓄地讲,就是主要职责分布式近似值的GPU要同时更是新自己的数据资料到不同的近似值GPU上,毕竟在这种框架下就立即了数据资料要反复地展开网络服务,保持数据资料在各个GPU上的启动时。并且AllReduce的近似值类型乃是是欲和异或欲最值等非常简单但是近似值频繁的可用。我们打算到了这样的近似值作法在之前,就可以设打算把以太网变成一个近似值链表,将所有的GPU的数据资料实质上汇聚到以太网上展开近似值,并且实质上分发到各个GPU上。这样由于以太网的发送增益并不大链接,如此的虚拟化不仅并未数据资料存储的难题,而且在数据资料网络服务中的的光阴只所需一次就可以展开时所有的近似值处理过程,大大比较非常简单了近似值处理过程,提颇高了权重,消除了难题。

从里大面的示意图可以说明了,在几十台DGX的链接坦克部队数量上用到了网络服务近似值动态之前,适度坦克部队展开时从业者训练的侦查的耐用性增加了18%,这就也就是说当用到了InfiniBand网络服务的坦克部队的时候,以太网不仅展开时了新十代的数据资料存储,同时还展开时了近两成的近似值侦查,为卖家有利于提颇高了耐用性的同时,减省了大量的链接投入价格。

五、InfiniBand 是如何借助减缓存储的?

便是,近似值和存储是任何坦克部队中的最不可或缺的两个必不可少。虽然在一个坦克部队的生物学形态下,存储链接的数量值得注意多于近似值链接,但从本质上看,从事于存储的链接毕竟只是主要职责数据资料存储的一小部分。而在广义上的存储,毕竟遍布了坦克部队中的的每一个角落。

在这里,我们按照下述四个维度对这几种典型的闪存件展开归类和复合。

1.数据资料存储的增益

2.数据资料访问的权重

3.闪存件的用量

4.一个单位用量下存储的价格

不难说明了IRAM寄存器SSD人力池中、闪存人力池中和磁带人力池中,刚好只能按照对角线展开复合。这就也就是说在这样的组成的坦克部队寄存器储的性价比是最低,配有甚为理论上的存储其设计方案。

但是如果机械闪存、液态闪存以单个器件存在,那存储其设计方案就不能借助对角线的复合。状况毕竟很非常简单,以机械闪存为例,碍于存储增益的限制,单个闪存不只能共享更是颇高的I/O、更是大的用量,所以分布式存储没落的时候,通过池中化其设计方案,单纯地妥善解决了这个问题,使得闪存落盘的增益大幅增加,同时用量也越发更是大。而今天液态闪存的没落,虽然增益有了一两个数量级的增加,但是值得注意寄存器来说,无论如何不够快,同时存储的用量也不够大。所以通过网络服务其设计方案池中化,将带入液态闪存某种程度的一个趋势,而此时对网络服务顾及数百G的容量大阻碍。

因此,对于存储,InfiniBand的减缓本质上就是通过闪存件的分段之前的池中化,借助了数据资料耐用性的增加,而借助减缓效用的。

通过InfiniBand的网络服务再一剖析坦克部队,将近似值两组、存储两组立成之池中,用InfiniBand作为整个坦克部队的背板链路,颇高效地将其网络服务系统起来,为软件定义坦克部队奠定了软件的系统化。这样,新十代坦克部队就变成了一台的大新十代的链接,可以根据各种侦查的负载特性的不同,自如配有近似值与存储人力,最大限度地符合效率的同时,还能有更是颇高的耐用性体现。并且在愿景坦克部队扩容时,可以根据真实的状况所需,定向扩容所需的人力,有利于提颇高坦克部队的弹性。而这一切,都所需建立在颇高可靠、颇高增益、低频的网络服务上。

要打算知晓更是多元时空网络服务及运算相关内容数据,可详细信息MetaCon元时空关键技术大时会其网站,地址:

江中健胃消食片和乳酸菌素片区别
再林阿莫西林颗粒治疗儿童咽炎吗
吃药可以治疗打呼噜吗
孕妇拉肚子怎么必奇蒙脱石散吃效果最好
颈椎痛该怎么治疗
友情链接