CoreWeave 為高性能、安全、多租戶環(huán)境開發(fā)了云規(guī)模加速計算基礎(chǔ)設(shè)施
AI 變革正在重塑數(shù)據(jù)中心格局,亟需能夠提供更靈活、高性價比的計算和數(shù)據(jù)能力的平臺。為了滿足這些需求,作為推動 AI 變革的超大規(guī)模云服務(wù)提供商,CoreWeave 致力于開發(fā)一種用于加速計算工作負(fù)載的云平臺,該云平臺能夠在多租戶環(huán)境中提供高性能、嚴(yán)格的租戶隔離和安全性。
CoreWeave 云平臺使用 NVIDIA BlueField DPU,簡化了大規(guī)模先進(jìn)基礎(chǔ)設(shè)施的工程、組裝、運行和監(jiān)測,為 AI 工作負(fù)載提供頂尖的性能與效率。
挑戰(zhàn)
為了滿足 AI 的需求,數(shù)據(jù)中心需要具有靈活、高性能、高性價比的計算與數(shù)據(jù)能力的平臺。CoreWeave 致力于開發(fā)一個云規(guī)模的加速計算基礎(chǔ)設(shè)施,以便在多租戶環(huán)境中提供高性能、嚴(yán)格的租戶隔離和安全性。
CoreWeave 的基礎(chǔ)設(shè)施需要支持外部網(wǎng)絡(luò)訪問和內(nèi)部網(wǎng)絡(luò)計算,還必須能夠管理數(shù)十萬顆 NVIDIA GPU 之間的網(wǎng)絡(luò)流量,并在高負(fù)載下保持性能。此外,該基礎(chǔ)設(shè)施還需要卸載并加速網(wǎng)絡(luò)和存儲任務(wù),以釋放 CPU 資源,從而使處理器能夠?qū)W⒂谔幚碛嬎忝芗凸ぷ髫?fù)載,并加快存儲訪問速度,從而實現(xiàn)更高效的AI計算。CoreWeave 的另一個主要目標(biāo)是開發(fā)一個能夠滿足 AI 應(yīng)用日益增長需求的基礎(chǔ)設(shè)施,并確保其可擴(kuò)展性,以便在未來更好的處理日益復(fù)雜的計算密集型大規(guī)模工作負(fù)載。CoreWeave 借助NVIDIA BlueField 網(wǎng)絡(luò)平臺和 NVIDIA DOCA 軟件框架的強(qiáng)大功能來滿足這些需求。
解決方案
CoreWeave 借助 NVIDIA BlueField-3 DPU 來提高其 AI 云基礎(chǔ)設(shè)施的效率,提供可擴(kuò)展性并優(yōu)化其性能。他們使用 DPU 來卸載并加速網(wǎng)絡(luò)、管理、存儲和安全服務(wù),并釋放 CPU 資源。
CoreWeave 使用 NVIDIA DOCA 軟件框架在應(yīng)用程序域和基礎(chǔ)設(shè)施服務(wù)域進(jìn)行開發(fā)。
CoreWeave 使用 BlueField DPU 和 DOCA 開發(fā)了一個具有強(qiáng)大、高性價比且快速擴(kuò)展的平臺,使任何規(guī)模的客戶都能夠創(chuàng)建、訓(xùn)練和微調(diào)為其特定業(yè)務(wù)挑戰(zhàn)而定制的模型。
CoreWeave 將其管理和存儲基礎(chǔ)設(shè)施與運行 NVIDIA Cumulus Linux 的NVIDIA Spectrum 以太網(wǎng)交換機(jī)連接起來,以實現(xiàn) API 為中心的網(wǎng)絡(luò)運營。
CoreWeave 使用 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺作為其 GPU 到 GPU 的 AI 計算網(wǎng)絡(luò),不僅實現(xiàn)了低延遲、高帶寬、高效數(shù)據(jù)傳輸和性能隔離,還確保為要求苛刻的 AI 工作負(fù)載提供極佳的性能和可擴(kuò)展性。
借助 BlueField DPU 和 DOCA增強(qiáng)網(wǎng)絡(luò)功能
CoreWeave 使用NVIDIA DOCA 軟件框架中的組件—特別是基于 OVS-DOCA 和DOCA FLOW 的 DOCA基 于主機(jī)的網(wǎng)絡(luò)(DOCA HBN)服務(wù),加速了云網(wǎng)絡(luò)服務(wù)和 API。DOCA HBN 利用與 NVIDIA Cumulus Linux 網(wǎng)絡(luò)操作系統(tǒng)相同的核心組件,如 FRRouting 和 NVIDIA User Experience(NVUE),并將它們打包到在 BlueField DPU 上運行的容器中。此設(shè)置使 CoreWeave 能夠以可擴(kuò)展、分布式的方式管理復(fù)雜的網(wǎng)絡(luò)功能,支持多租戶環(huán)境中的租戶隔離、負(fù)載均衡和流量引導(dǎo)。這確保每個云租戶只能訪問自己的數(shù)據(jù)和計算任務(wù),并確保這些任務(wù)在不影響性能的情況下得到高效管理,從而實現(xiàn)可擴(kuò)展且安全的網(wǎng)絡(luò)。通過卸載和加速這些任務(wù),DOCA HBN 減輕了 CPU 負(fù)載,使其能夠處理計算密集型進(jìn)程,并提高整體系統(tǒng)性能。
借助 DOCA HBN,CoreWeave 將網(wǎng)絡(luò)隔離功能遷移至BlueField DPU,并采用 EVPN VXLAN 為每個租戶創(chuàng)建了獨立的虛擬網(wǎng)絡(luò),通過 VXLAN 網(wǎng)絡(luò)標(biāo)識符處理路由流量,以確保實現(xiàn)完全隔離。由于嚴(yán)格的網(wǎng)絡(luò)隔離對于安全性與合規(guī)性在多租戶環(huán)境中至關(guān)重要。CoreWeave 還通過在 BlueField 上部署互聯(lián)網(wǎng)網(wǎng)關(guān)實現(xiàn)了去中心化架構(gòu),并使用 OVS-DOCA 進(jìn)行流量引導(dǎo)和網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)。BlueField 還通過托管網(wǎng)關(guān)和 BGP 路由,在網(wǎng)絡(luò)流量管理方面發(fā)揮至關(guān)重要的作用,從而實現(xiàn)高效的網(wǎng)絡(luò)管理。
通過 BlueField 集成實現(xiàn)系統(tǒng)級優(yōu)化
為了構(gòu)建下一代 AI 存儲服務(wù),即 CoreWeave AI 對象存儲,CoreWeave 與 VAST Data 合作,充分利用雙方與 NVIDIA 技術(shù)的深度集成。VAST 將 BlueField DPU 作為控制數(shù)據(jù)節(jié)點(DNode),通過 NVIDIA DOCA API 將數(shù)據(jù)服務(wù)直接卸載到 BlueField DPU,從而消除了對傳統(tǒng) x86 CPU 的需求。
該架構(gòu)重新定義了數(shù)據(jù)層的控制和策略執(zhí)行方式,更加接近數(shù)據(jù)流向且效率更高。CoreWeave 最初使用的 NVIDIA DPU 是 BlueField-1,現(xiàn)已發(fā)展至 BlueField-3,并持續(xù)致力于將 BlueField 部署到計算相鄰節(jié)點(CNode)。這實現(xiàn)了基礎(chǔ)設(shè)施級的多租戶,其中每個 CoreWeave AI 對象存儲租戶都能在一個隔離且安全的網(wǎng)絡(luò)域中運行。實時遙測和細(xì)粒度策略執(zhí)行直接在 DPU 層完成。該平臺對多協(xié)議訪問的支持進(jìn)一步簡化了復(fù)雜性,并實現(xiàn)了跨不同計算和數(shù)據(jù)環(huán)境的無縫互操作性。
這種靈活性使 CoreWeave 能夠在不影響性能或犧牲租戶隔離性的情況下擴(kuò)展 AI 對象存儲。將控制服務(wù)卸載到 BlueField DPU 徹底重塑了基礎(chǔ)設(shè)施的經(jīng)濟(jì)學(xué),因其優(yōu)化了性能、安全性和可擴(kuò)展性。性能基準(zhǔn)測試顯示了該架構(gòu)演進(jìn)的優(yōu)點:與基于 x86 架構(gòu)、配備 DRAM 和傳統(tǒng) NVIDIA ConnectX 網(wǎng)卡的 DNode 相比,基于 BlueField 的 DNode 在連續(xù)吞吐量方面提高了 60%,從 40GB/s 增加至 64GB/s,同時功耗降低了 58%,從 1200 W 下降至 500 W。這相當(dāng)于每瓦性能提高了 3.84 倍。該設(shè)計為現(xiàn)代 AI 基礎(chǔ)設(shè)施提供了藍(lán)圖,展示了基礎(chǔ)設(shè)施層的軟硬件協(xié)同設(shè)計如何為 CoreWeave 等云服務(wù)提供商帶來效率、可擴(kuò)展性和性能的巨大提升。
新系統(tǒng)還通過采用四塊 BlueField DPU 和八個 100GbE 端口,將線路帶寬提高至原來的兩倍。雖然部分功耗節(jié)省歸因于采用了更大、更高效的固態(tài)硬盤(SSD),但其整體效率提升主要歸功于 DPU 的集成。此次測試展現(xiàn)了 BlueField DPU 變革數(shù)據(jù)中心架構(gòu)的潛力,為像 CoreWeave 這樣尋求提升 AI 基礎(chǔ)設(shè)施性能和能效的公司提供了夢寐以求的解決方案。

x86 CPU 與 BlueField DPU 的對比
上圖通過對比,顯示出運行在 x86 CPU 和運行在 NVIDIA BlueField DPU 之間的差異。
借助 NVIDIA Spectrum 以太網(wǎng)交換機(jī)和 Cumulus Linux 實現(xiàn)云規(guī)模效率
除了利用 BlueField DPU 來卸載、加速和隔離工作負(fù)載外,CoreWeave 還通過運行 NVIDIA Cumulus Linux 的 NVIDIA Spectrum 以太網(wǎng)交換機(jī)來連接存儲和管理基礎(chǔ)設(shè)施。Cumulus Linux 旨在通過軟件驅(qū)動的自動化來簡化網(wǎng)絡(luò)管理。通過將純?nèi)龑?EVPN VXLAN 與 NVUE 對象模型的 API 相結(jié)合,CoreWeave 即使在大規(guī)模情況下也能輕松管理網(wǎng)絡(luò)的自動化、運營和更新。
利用 NVIDIA Quantum-2 InfiniBand實現(xiàn)極高的 AI 性能
CoreWeave 利用 BlueField DPU 和 Spectrum 以太網(wǎng)交換機(jī)構(gòu)建存儲與管理網(wǎng)絡(luò),同時使用 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺構(gòu)建 GPU 到 GPU 的 AI 計算網(wǎng)絡(luò)。InfiniBand 是 AI 網(wǎng)絡(luò)的黃金標(biāo)準(zhǔn),可為高負(fù)載和大規(guī)模 AI 訓(xùn)練工作負(fù)載提供極高的有效帶寬和超低的延遲。InfiniBand 的功能,如動態(tài)路由和基于遙測的擁塞控制,對于多租戶 AI 云環(huán)境至關(guān)重要,能夠?qū)崿F(xiàn)性能隔離,并確保所有 CoreWeave 用戶都能獲得所需的全部網(wǎng)絡(luò)帶寬。CoreWeave 還使用 Quantum InfiniBand 的 NVIDIA 可擴(kuò)展分層聚合和歸約協(xié)議(SHARP)進(jìn)行 AI 集合操作網(wǎng)絡(luò)計算,卸載 GPU 的通信操作,簡化網(wǎng)絡(luò)流量模式,并加快任務(wù)完成時間。
總結(jié)
CoreWeave 使用 NVIDIA DOCA 部署 NVIDIA BlueField DPU,從而變革了其 AI 云基礎(chǔ)設(shè)施,并在技術(shù)、運營和業(yè)務(wù)層面帶來了顯著的價值。通過集成 BlueField DPU,CoreWeave 構(gòu)建出一個高效、可擴(kuò)展、安全的平臺,滿足了現(xiàn)代 AI 工作負(fù)載和云端運營的嚴(yán)苛要求。憑借將 VAST Data 的存儲解決方案與NVIDIA BlueField DPU相結(jié)合這一創(chuàng)新方法,CoreWeave 已躋身領(lǐng)先的 AI 云服務(wù)提供商之列,并通過對創(chuàng)新技術(shù)的不懈追求來滿足未來的客戶需求,同時應(yīng)對日益復(fù)雜的 AI 工作負(fù)載。
戰(zhàn)略性的部署 NVIDIA BlueField DPU 和 NVIDIA DOCA 軟件框架等先進(jìn)技術(shù),可以徹底改變 AI 應(yīng)用的云基礎(chǔ)設(shè)施。CoreWeave 成功利用 BlueField DPU 構(gòu)建了可擴(kuò)展、高效且安全的 AI 云平臺,彰顯了 BlueField DPU 在優(yōu)化 AI 和高性能計算基礎(chǔ)設(shè)施方面的顯著優(yōu)勢。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5678瀏覽量
110073 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5740瀏覽量
75182 -
AI
+關(guān)注
關(guān)注
91文章
40820瀏覽量
302425 -
DPU
+關(guān)注
關(guān)注
0文章
416瀏覽量
27140
原文標(biāo)題:CoreWeave 借助 NVIDIA BlueField DPU 開創(chuàng)數(shù)據(jù)中心新范式
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA與亞馬遜云科技深化合作伙伴關(guān)系
借助NVIDIA DSX Air平臺加速AI基礎(chǔ)設(shè)施仿真部署
NVIDIA加速計算平臺助力從地球到太空的AI應(yīng)用
NVIDIA DRIVE AV軟件平臺與Halos架構(gòu)助力梅賽德斯奔馳CLA車型獲得最高安全評分
NVIDIA攜手Mistral AI發(fā)布全新開源大語言模型系列
云途MCU助力BCM控制器智能升級
NVIDIA Spectrum-X 以太網(wǎng)交換機(jī)助力 Meta 和 Oracle 加速網(wǎng)絡(luò)性能
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級
信捷視覺平臺全新升級
NVIDIA Dynamo新增對亞馬遜云科技服務(wù)的支持
NVIDIA助力CoreWeave云平臺性能升級
評論