大伊香蕉一区二区三区,婷婷午夜精99

CoreWeave 為高性能、安全、多租戶環(huán)境開發(fā)了云規(guī)模加速計算基礎(chǔ)設(shè)施

AI 變革正在重塑數(shù)據(jù)中心格局，亟需能夠提供更靈活、高性價比的計算和數(shù)據(jù)能力的平臺。為了滿足這些需求，作為推動 AI 變革的超大規(guī)模云服務(wù)提供商，CoreWeave 致力于開發(fā)一種用于加速計算工作負(fù)載的云平臺，該云平臺能夠在多租戶環(huán)境中提供高性能、嚴(yán)格的租戶隔離和安全性。

CoreWeave 云平臺使用 NVIDIA BlueField DPU，簡化了大規(guī)模先進(jìn)基礎(chǔ)設(shè)施的工程、組裝、運行和監(jiān)測，為 AI 工作負(fù)載提供頂尖的性能與效率。

挑戰(zhàn)

為了滿足 AI 的需求，數(shù)據(jù)中心需要具有靈活、高性能、高性價比的計算與數(shù)據(jù)能力的平臺。CoreWeave 致力于開發(fā)一個云規(guī)模的加速計算基礎(chǔ)設(shè)施，以便在多租戶環(huán)境中提供高性能、嚴(yán)格的租戶隔離和安全性。

CoreWeave 的基礎(chǔ)設(shè)施需要支持外部網(wǎng)絡(luò)訪問和內(nèi)部網(wǎng)絡(luò)計算，還必須能夠管理數(shù)十萬顆 NVIDIA GPU 之間的網(wǎng)絡(luò)流量，并在高負(fù)載下保持性能。此外，該基礎(chǔ)設(shè)施還需要卸載并加速網(wǎng)絡(luò)和存儲任務(wù)，以釋放 CPU 資源，從而使處理器能夠?qū)Ｗ⒂谔幚碛嬎忝芗凸ぷ髫?fù)載，并加快存儲訪問速度，從而實現(xiàn)更高效的AI計算。CoreWeave 的另一個主要目標(biāo)是開發(fā)一個能夠滿足 AI 應(yīng)用日益增長需求的基礎(chǔ)設(shè)施，并確保其可擴(kuò)展性，以便在未來更好的處理日益復(fù)雜的計算密集型大規(guī)模工作負(fù)載。CoreWeave 借助NVIDIA BlueField 網(wǎng)絡(luò)平臺和 NVIDIA DOCA 軟件框架的強(qiáng)大功能來滿足這些需求。

解決方案

CoreWeave 借助 NVIDIA BlueField-3 DPU 來提高其 AI 云基礎(chǔ)設(shè)施的效率，提供可擴(kuò)展性并優(yōu)化其性能。他們使用 DPU 來卸載并加速網(wǎng)絡(luò)、管理、存儲和安全服務(wù)，并釋放 CPU 資源。

CoreWeave 使用 NVIDIA DOCA 軟件框架在應(yīng)用程序域和基礎(chǔ)設(shè)施服務(wù)域進(jìn)行開發(fā)。

CoreWeave 使用 BlueField DPU 和 DOCA 開發(fā)了一個具有強(qiáng)大、高性價比且快速擴(kuò)展的平臺，使任何規(guī)模的客戶都能夠創(chuàng)建、訓(xùn)練和微調(diào)為其特定業(yè)務(wù)挑戰(zhàn)而定制的模型。

CoreWeave 將其管理和存儲基礎(chǔ)設(shè)施與運行 NVIDIA Cumulus Linux 的NVIDIA Spectrum 以太網(wǎng)交換機(jī)連接起來，以實現(xiàn) API 為中心的網(wǎng)絡(luò)運營。

CoreWeave 使用 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺作為其 GPU 到 GPU 的 AI 計算網(wǎng)絡(luò)，不僅實現(xiàn)了低延遲、高帶寬、高效數(shù)據(jù)傳輸和性能隔離，還確保為要求苛刻的 AI 工作負(fù)載提供極佳的性能和可擴(kuò)展性。

借助 BlueField DPU 和 DOCA增強(qiáng)網(wǎng)絡(luò)功能

CoreWeave 使用NVIDIA DOCA 軟件框架中的組件—特別是基于 OVS-DOCA 和DOCA FLOW 的 DOCA基于主機(jī)的網(wǎng)絡(luò)（DOCA HBN）服務(wù)，加速了云網(wǎng)絡(luò)服務(wù)和 API。DOCA HBN 利用與 NVIDIA Cumulus Linux 網(wǎng)絡(luò)操作系統(tǒng)相同的核心組件，如 FRRouting 和 NVIDIA User Experience（NVUE），并將它們打包到在 BlueField DPU 上運行的容器中。此設(shè)置使 CoreWeave 能夠以可擴(kuò)展、分布式的方式管理復(fù)雜的網(wǎng)絡(luò)功能，支持多租戶環(huán)境中的租戶隔離、負(fù)載均衡和流量引導(dǎo)。這確保每個云租戶只能訪問自己的數(shù)據(jù)和計算任務(wù)，并確保這些任務(wù)在不影響性能的情況下得到高效管理，從而實現(xiàn)可擴(kuò)展且安全的網(wǎng)絡(luò)。通過卸載和加速這些任務(wù)，DOCA HBN 減輕了 CPU 負(fù)載，使其能夠處理計算密集型進(jìn)程，并提高整體系統(tǒng)性能。

借助 DOCA HBN，CoreWeave 將網(wǎng)絡(luò)隔離功能遷移至BlueField DPU，并采用 EVPN VXLAN 為每個租戶創(chuàng)建了獨立的虛擬網(wǎng)絡(luò)，通過 VXLAN 網(wǎng)絡(luò)標(biāo)識符處理路由流量，以確保實現(xiàn)完全隔離。由于嚴(yán)格的網(wǎng)絡(luò)隔離對于安全性與合規(guī)性在多租戶環(huán)境中至關(guān)重要。CoreWeave 還通過在 BlueField 上部署互聯(lián)網(wǎng)網(wǎng)關(guān)實現(xiàn)了去中心化架構(gòu)，并使用 OVS-DOCA 進(jìn)行流量引導(dǎo)和網(wǎng)絡(luò)地址轉(zhuǎn)換（NAT）。BlueField 還通過托管網(wǎng)關(guān)和 BGP 路由，在網(wǎng)絡(luò)流量管理方面發(fā)揮至關(guān)重要的作用，從而實現(xiàn)高效的網(wǎng)絡(luò)管理。

通過 BlueField 集成實現(xiàn)系統(tǒng)級優(yōu)化

為了構(gòu)建下一代 AI 存儲服務(wù)，即 CoreWeave AI 對象存儲，CoreWeave 與 VAST Data 合作，充分利用雙方與 NVIDIA 技術(shù)的深度集成。VAST 將 BlueField DPU 作為控制數(shù)據(jù)節(jié)點（DNode），通過 NVIDIA DOCA API 將數(shù)據(jù)服務(wù)直接卸載到 BlueField DPU，從而消除了對傳統(tǒng) x86 CPU 的需求。

該架構(gòu)重新定義了數(shù)據(jù)層的控制和策略執(zhí)行方式，更加接近數(shù)據(jù)流向且效率更高。CoreWeave 最初使用的 NVIDIA DPU 是 BlueField-1，現(xiàn)已發(fā)展至 BlueField-3，并持續(xù)致力于將 BlueField 部署到計算相鄰節(jié)點（CNode）。這實現(xiàn)了基礎(chǔ)設(shè)施級的多租戶，其中每個 CoreWeave AI 對象存儲租戶都能在一個隔離且安全的網(wǎng)絡(luò)域中運行。實時遙測和細(xì)粒度策略執(zhí)行直接在 DPU 層完成。該平臺對多協(xié)議訪問的支持進(jìn)一步簡化了復(fù)雜性，并實現(xiàn)了跨不同計算和數(shù)據(jù)環(huán)境的無縫互操作性。

這種靈活性使 CoreWeave 能夠在不影響性能或犧牲租戶隔離性的情況下擴(kuò)展 AI 對象存儲。將控制服務(wù)卸載到 BlueField DPU 徹底重塑了基礎(chǔ)設(shè)施的經(jīng)濟(jì)學(xué)，因其優(yōu)化了性能、安全性和可擴(kuò)展性。性能基準(zhǔn)測試顯示了該架構(gòu)演進(jìn)的優(yōu)點：與基于 x86 架構(gòu)、配備 DRAM 和傳統(tǒng) NVIDIA ConnectX 網(wǎng)卡的 DNode 相比，基于 BlueField 的 DNode 在連續(xù)吞吐量方面提高了 60%，從 40GB/s 增加至 64GB/s，同時功耗降低了 58%，從 1200 W 下降至 500 W。這相當(dāng)于每瓦性能提高了 3.84 倍。該設(shè)計為現(xiàn)代 AI 基礎(chǔ)設(shè)施提供了藍(lán)圖，展示了基礎(chǔ)設(shè)施層的軟硬件協(xié)同設(shè)計如何為 CoreWeave 等云服務(wù)提供商帶來效率、可擴(kuò)展性和性能的巨大提升。

新系統(tǒng)還通過采用四塊 BlueField DPU 和八個 100GbE 端口，將線路帶寬提高至原來的兩倍。雖然部分功耗節(jié)省歸因于采用了更大、更高效的固態(tài)硬盤（SSD），但其整體效率提升主要歸功于 DPU 的集成。此次測試展現(xiàn)了 BlueField DPU 變革數(shù)據(jù)中心架構(gòu)的潛力，為像 CoreWeave 這樣尋求提升 AI 基礎(chǔ)設(shè)施性能和能效的公司提供了夢寐以求的解決方案。

x86 CPU 與 BlueField DPU 的對比

上圖通過對比，顯示出運行在 x86 CPU 和運行在 NVIDIA BlueField DPU 之間的差異。

借助 NVIDIA Spectrum 以太網(wǎng)交換機(jī)和 Cumulus Linux 實現(xiàn)云規(guī)模效率

除了利用 BlueField DPU 來卸載、加速和隔離工作負(fù)載外，CoreWeave 還通過運行 NVIDIA Cumulus Linux 的 NVIDIA Spectrum 以太網(wǎng)交換機(jī)來連接存儲和管理基礎(chǔ)設(shè)施。Cumulus Linux 旨在通過軟件驅(qū)動的自動化來簡化網(wǎng)絡(luò)管理。通過將純?nèi)龑?EVPN VXLAN 與 NVUE 對象模型的 API 相結(jié)合，CoreWeave 即使在大規(guī)模情況下也能輕松管理網(wǎng)絡(luò)的自動化、運營和更新。

利用 NVIDIA Quantum-2 InfiniBand實現(xiàn)極高的 AI 性能

CoreWeave 利用 BlueField DPU 和 Spectrum 以太網(wǎng)交換機(jī)構(gòu)建存儲與管理網(wǎng)絡(luò)，同時使用 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺構(gòu)建 GPU 到 GPU 的 AI 計算網(wǎng)絡(luò)。InfiniBand 是 AI 網(wǎng)絡(luò)的黃金標(biāo)準(zhǔn)，可為高負(fù)載和大規(guī)模 AI 訓(xùn)練工作負(fù)載提供極高的有效帶寬和超低的延遲。InfiniBand 的功能，如動態(tài)路由和基于遙測的擁塞控制，對于多租戶 AI 云環(huán)境至關(guān)重要，能夠?qū)崿F(xiàn)性能隔離，并確保所有 CoreWeave 用戶都能獲得所需的全部網(wǎng)絡(luò)帶寬。CoreWeave 還使用 Quantum InfiniBand 的 NVIDIA 可擴(kuò)展分層聚合和歸約協(xié)議（SHARP）進(jìn)行 AI 集合操作網(wǎng)絡(luò)計算，卸載 GPU 的通信操作，簡化網(wǎng)絡(luò)流量模式，并加快任務(wù)完成時間。

總結(jié)

CoreWeave 使用 NVIDIA DOCA 部署 NVIDIA BlueField DPU，從而變革了其 AI 云基礎(chǔ)設(shè)施，并在技術(shù)、運營和業(yè)務(wù)層面帶來了顯著的價值。通過集成 BlueField DPU，CoreWeave 構(gòu)建出一個高效、可擴(kuò)展、安全的平臺，滿足了現(xiàn)代 AI 工作負(fù)載和云端運營的嚴(yán)苛要求。憑借將 VAST Data 的存儲解決方案與NVIDIA BlueField DPU相結(jié)合這一創(chuàng)新方法，CoreWeave 已躋身領(lǐng)先的 AI 云服務(wù)提供商之列，并通過對創(chuàng)新技術(shù)的不懈追求來滿足未來的客戶需求，同時應(yīng)對日益復(fù)雜的 AI 工作負(fù)載。

戰(zhàn)略性的部署 NVIDIA BlueField DPU 和 NVIDIA DOCA 軟件框架等先進(jìn)技術(shù)，可以徹底改變 AI 應(yīng)用的云基礎(chǔ)設(shè)施。CoreWeave 成功利用 BlueField DPU 構(gòu)建了可擴(kuò)展、高效且安全的 AI 云平臺，彰顯了 BlueField DPU 在優(yōu)化 AI 和高性能計算基礎(chǔ)設(shè)施方面的顯著優(yōu)勢。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5678

瀏覽量
110073
數(shù)據(jù)中心

數(shù)據(jù)中心

+關(guān)注

關(guān)注
18

文章
5740

瀏覽量
75182
AI

AI

+關(guān)注

關(guān)注
91

文章
40820

瀏覽量
302425
DPU

DPU

+關(guān)注

關(guān)注
0

文章
416

瀏覽量
27140

原文標(biāo)題：CoreWeave 借助 NVIDIA BlueField DPU 開創(chuàng)數(shù)據(jù)中心新范式

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

NVIDIA助力CoreWeave云平臺性能升級

評論