国产精品久久国产盗摄,久久对白国产,激情视频区

AI 工廠依靠的不僅僅是計算網(wǎng)。當(dāng)然，連接 GPU 的東西向網(wǎng)絡(luò)對于 AI 應(yīng)用的性能至關(guān)重要，而連接高速存儲陣列的存儲網(wǎng)也不容忽視。存儲性能在運行 AI 業(yè)務(wù)過程中的多個階段中發(fā)揮著關(guān)鍵作用,包括訓(xùn)練過程中的 Checkpoint 操作、推理過程中的檢索增強(qiáng)生成（RAG）等。

為了滿足這些需求，NVIDIA 和存儲生態(tài)合作伙伴正在將NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺擴(kuò)展到數(shù)據(jù)存儲網(wǎng)，從而帶來更高的性能和更快的實現(xiàn) AI 的時間。由于 Spectrum-X 動態(tài)路由技術(shù)能夠緩解網(wǎng)絡(luò)中的流量沖突并增加有效帶寬，從而使存儲性能遠(yuǎn)高于 RoCE v2，RoCE v2 是大多數(shù)數(shù)據(jù)中心用于 AI 計算網(wǎng)和存儲網(wǎng)的以太網(wǎng)網(wǎng)絡(luò)協(xié)議。

Spectrum-X 將讀取帶寬加速了高達(dá) 48%，寫入帶寬加速了高達(dá) 41%。帶寬的增加可以更快地完成 AI 工作流中與存儲相關(guān)的操作，從而縮短訓(xùn)練業(yè)務(wù)的完成時間，并降低推理過程中的 Token 分配延遲。

Spectrum-X 的主要存儲合作伙伴

隨著 AI 工作負(fù)載的規(guī)模和復(fù)雜性不斷增加，存儲解決方案也必須不斷發(fā)展，以跟上現(xiàn)代 AI 工廠的需求。DDN、VAST Data?和WEKA?等領(lǐng)先的存儲供應(yīng)商正與 NVIDIA 合作，利用 Spectrum-X 集成和優(yōu)化其解決方案，為 AI 存儲網(wǎng)帶來先進(jìn)的功能。

Spectrum-X 對 Israel-1 超級計算機(jī)的大規(guī)模影響

NVIDIA 已經(jīng)搭建了生成式 AI 超級計算機(jī) Israel-1，用于對各種 AI 網(wǎng)絡(luò)解決方案進(jìn)行預(yù)測試和驗證以優(yōu)化 Spectrum-X 性能和簡化網(wǎng)絡(luò)部署。這使 Israel-1 成為測試 Spectrum-X 如何影響存儲工作負(fù)載的良好平臺，展示了網(wǎng)絡(luò)在現(xiàn)實的超級計算機(jī)運行狀態(tài)下對存儲性能的影響。

為了了解 Spectrum-X 對存儲網(wǎng)絡(luò)的影響，Israel-1 團(tuán)隊測量了從 NVIDIA HGX ?GPU 服務(wù)器客戶端訪問存儲時的讀寫帶寬。該測試（Flexible I/O Tester 基準(zhǔn)測試）在將網(wǎng)絡(luò)配置為標(biāo)準(zhǔn) RoCE v2 網(wǎng)絡(luò)的情況下執(zhí)行一次，然后在啟用 Spectrum-X 的動態(tài)路由和擁塞控制后重新運行。

這些測試使用了不同數(shù)量的 GPU 服務(wù)器作為客戶端運行，覆蓋了從 40 個 GPU 到 800 個 GPU。在所有的測試中，Spectrum-X 都表現(xiàn)得更好。讀帶寬提升幅度在 20%到 48%之間，寫帶寬提升幅度在 9％到 41％之間，這些結(jié)果與 DDN、VAST?和 WEKA?等生態(tài)合作伙伴測到的加速性能一致。

存儲網(wǎng)絡(luò)性能對于 AI 性能至關(guān)重要

要想知道 Spectrum-X 為何會帶來如此大的影響，需要先了解存儲在 AI 業(yè)務(wù)中的重要性。AI 性能不僅僅受大語言模型（LLM）每一步完成時間的影響，還與許多其他因素有關(guān)。例如，由于模型訓(xùn)練通常需要幾天、幾周或幾個月才能完成，因此設(shè)置 Checkpoint 或保存部分訓(xùn)練模型的中間結(jié)果到存儲非常重要，通常需要每隔幾個小時操作一次。這意味著，萬一系統(tǒng)出現(xiàn)問題，訓(xùn)練進(jìn)度不會丟失。

對于具有數(shù)十億至數(shù)萬億參數(shù)的模型，這些 Checkpoint 的狀態(tài)變得越來越大，現(xiàn)在最大型 LLM 模型會生成高達(dá)數(shù) TB 的數(shù)據(jù)，保存數(shù)據(jù)或恢復(fù)數(shù)據(jù)會產(chǎn)生多條“大象流”，這些突發(fā)的大象流，可能會淹沒交換機(jī)的緩沖和鏈路，所以網(wǎng)絡(luò)必須保證為訓(xùn)練工作負(fù)載提供最佳利用率。

檢索增強(qiáng)生成（RAG）是另一個存儲網(wǎng)可以影響工作負(fù)載性能的例子，借助 RAG，LLM 與不斷增長的知識庫相結(jié)合，為模型添加特定領(lǐng)域的上下文，從而提供更快的響應(yīng)時間，而無需額外的模型訓(xùn)練或微調(diào)。RAG 的工作原理是獲取額外的內(nèi)容或知識，并將其嵌入到向量數(shù)據(jù)庫中，從而使其成為可搜索到的知識庫。

輸入推理提示時，系統(tǒng)會解析（嵌入）提示并搜索數(shù)據(jù)庫，檢索到的內(nèi)容會向提示添加上下文，以幫助 LLM 制定最佳答案。向量數(shù)據(jù)庫是多維的，可能非常龐大，尤其是由圖像和視頻組成的知識庫。

這些數(shù)據(jù)庫通過存儲網(wǎng)連接到推理節(jié)點，網(wǎng)絡(luò)必須確?？焖?a target="_blank">通信以盡可能降低延遲。對于多租戶生成式 AI 工廠而言，這一點變得尤為重要，因為這些工廠每秒要處理大量的查詢。

存儲中動態(tài)路由和擁塞控制的應(yīng)用

Spectrum-X 平臺引入了 InfiniBand 網(wǎng)絡(luò)上的關(guān)鍵創(chuàng)新技術(shù)，例如RoCE Adaptive Routing（動態(tài)路由）和RoCE Congestion Control（擁塞控制）。NVIDIA 通過采用這些創(chuàng)新技術(shù)并將其與存儲網(wǎng)相結(jié)合，提高了存儲工作負(fù)載的性能和網(wǎng)絡(luò)利用率。

動態(tài)路由

為了消除大象流之間的碰撞并減輕 Checkpoint 過程中產(chǎn)生的網(wǎng)絡(luò)流量，動態(tài)路由可以對于網(wǎng)絡(luò)上的流進(jìn)行逐包的動態(tài)負(fù)載平衡，Spectrum-4 以太網(wǎng)交換機(jī)根據(jù)實時擁塞狀況來選擇擁塞最低的路徑。由于數(shù)據(jù)包被噴灑到整個網(wǎng)絡(luò)中，到達(dá)目的地時它們可能會出現(xiàn)亂序，在傳統(tǒng)的以太網(wǎng)下，這將需要重新傳輸許多數(shù)據(jù)包。

借助 Spectrum-X，接收端主機(jī)里的 SuperNIC 或數(shù)據(jù)處理器（DPU）知道數(shù)據(jù)包的正確順序，可以在主機(jī)內(nèi)存中按序放置數(shù)據(jù)包，從而使動態(tài)路由對應(yīng)用程序透明。這可提高網(wǎng)絡(luò)利用率，為 Checkpoint、數(shù)據(jù)獲取等實現(xiàn)更高的有效帶寬以及提供可預(yù)測、一致的結(jié)果。

擁塞控制

Checkpoints 和其它存儲操作通常會導(dǎo)致 Incast 擁塞，也稱為多對一擁塞。當(dāng)多個客戶端嘗試向單個存儲節(jié)點寫入數(shù)據(jù)時，就會出現(xiàn)這種情況。Spectrum-X 引入了一種基于遙測的擁塞控制技術(shù)，使用交換機(jī)中硬件遙測技術(shù)來通知 SuperNIC 或 DPU，以降低發(fā)送端的數(shù)據(jù)注入速率（即 RDMA 寫和讀)。從而防止出現(xiàn)擁塞熱點，這些熱點可能會反向傳播，導(dǎo)致相鄰作業(yè)或進(jìn)程受到擁塞的不公平影響。

增強(qiáng)彈性

由于 AI 工廠通常由大量交換機(jī)、線纜和收發(fā)器組成，任何鏈路中斷都可能導(dǎo)致網(wǎng)絡(luò)性能的大幅下降，因此網(wǎng)絡(luò)彈性對于維護(hù)基礎(chǔ)設(shè)施的健康至關(guān)重要。Spectrum-X 全局動態(tài)路由可在鏈路中斷時實現(xiàn)優(yōu)化、快速的重新收斂，從而充分利用存儲網(wǎng)。

NVIDIA 全棧集成

除了 Spectrum-X 為存儲網(wǎng)帶來的創(chuàng)新之外，NVIDIA 還提供并推薦使用多種 SDK、庫和軟件產(chǎn)品，以加速存儲到 GPU 數(shù)據(jù)通路，其中包括但不限于以下內(nèi)容：

NVIDIA Air：一款基于云的網(wǎng)絡(luò)仿真工具，用于對交換機(jī)、SuperNIC 和存儲進(jìn)行建模，可加速 Day 0、Day 1 和 Day 2 對于存儲網(wǎng)的操作。

NVIDIA Cumulus Linux：基于自動化部署和 API 構(gòu)建的網(wǎng)絡(luò)操作系統(tǒng)，可確保大規(guī)模網(wǎng)絡(luò)的平穩(wěn)運營和管理。

NVIDIA DOCA：面向 NVIDIA SuperNIC 和 DPU 的 SDK，可在存儲、安全等方面提供出色的可編程性和性能。

NVIDIA NetQ：一款網(wǎng)絡(luò)驗證工具集，集成了交換機(jī)遙測技術(shù)，可提供網(wǎng)絡(luò)的實時可見性。

NVIDIA GPUDirect Storage：一項在存儲和 GPU 顯存之間建立直接數(shù)據(jù)路徑的技術(shù)，可提高數(shù)據(jù)傳輸效率。

開始使用 Spectrum-X

隨著模型越來越大，數(shù)據(jù)走向更多的多模態(tài)，存儲將一直是生成式 AI 訓(xùn)練和操作的關(guān)鍵要素。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5682

瀏覽量
110102
網(wǎng)絡(luò)平臺

網(wǎng)絡(luò)平臺

+關(guān)注

關(guān)注
0

文章
20

瀏覽量
8231
AI

AI

+關(guān)注

關(guān)注
91

文章
40982

瀏覽量
302534

原文標(biāo)題：NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺和合作伙伴提升 AI 存儲性能達(dá) 48%

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

NVIDIA Spectrum-X網(wǎng)絡(luò)平臺助力提升AI存儲性能

評論