案例簡介
百度智能云是中國 AI 公有云服務(wù)市場的領(lǐng)先企業(yè)。近日,百度智能云落地新一代高性能AI計(jì)算集群,提供EFLOPS級算力支持,并發(fā)布了新一代GPU服務(wù)器實(shí)例GPU-H5-8NA100-IB01。該集群基于NVIDIA A100-80GB GPU和NVIDIA InfiniBand網(wǎng)絡(luò)構(gòu)建,成為領(lǐng)先的AI原生云算力底座。研究人員可基于全新發(fā)布的實(shí)例組建上千節(jié)點(diǎn)規(guī)模的超高性能計(jì)算集群,成倍縮短超大AI模型的訓(xùn)練時間,激發(fā)AI業(yè)務(wù)創(chuàng)新想象力。
客戶挑戰(zhàn)
隨著 AI 的發(fā)展,創(chuàng)新業(yè)務(wù)層出不窮,業(yè)務(wù)復(fù)雜性不斷提升,大模型、超大模型成為必然趨勢,對于快速訓(xùn)練與部署應(yīng)用提出了前所未有的緊迫要求。百度智能云早在 2020 年就預(yù)見到這一發(fā)展態(tài)勢,啟動規(guī)劃與方案設(shè)計(jì),并參考 NVIDIA 高性能分布式集群參考架構(gòu),設(shè)計(jì)落地新一代高性能 AI 集群,通過基礎(chǔ)架構(gòu)的升級,釋放技術(shù)使能想象力,幫助百度以及客戶的業(yè)務(wù)創(chuàng)新更上一層樓。
應(yīng)用方案
NVIDIA 提出的高性能分布式集群參考架構(gòu)基于 NVIDIA A100 GPU 和 NVIDIA HDR 200Gb/s ConnectX-6 網(wǎng)卡組建,采用模塊化設(shè)計(jì),能支持不同規(guī)模大小的設(shè)計(jì),以 20 臺為一個可擴(kuò)展單元(Scalable Unit), 可以任意擴(kuò)展到 100 臺、 200 臺、400 臺或更大的規(guī)模,通過 InfiniBand 交換機(jī)采用胖樹結(jié)構(gòu)全互聯(lián)起來。此集群架構(gòu)旨在幫助 AI 研究人員快速搭建強(qiáng)大、靈活、高效的系統(tǒng),以滿足工業(yè)界日益復(fù)雜、多變的模型對計(jì)算資源不同程度的需求。尤其對于超大語言模型預(yù)訓(xùn)練而言,此架構(gòu)尤為重要。
基于同樣的設(shè)計(jì)思路,百度智能云的新一代高性能 AI 集群采用百度自研的 X-MAN 架構(gòu)超級 AI 計(jì)算機(jī)為硬件平臺。
X-MAN 自 2016 年推出以來,已在鳳巢、自動駕駛、自然語言處理等百度內(nèi)部業(yè)務(wù)進(jìn)行大規(guī)模應(yīng)用多年,申請六項(xiàng)專利,包括 PCIe Fabric 架構(gòu)、液冷技術(shù)、最大支持 64 GPU 卡擴(kuò)展等,是百度 AI 業(yè)務(wù)快速落地的重要基礎(chǔ)設(shè)施。
目前, X-MAN 已經(jīng)全面升級到第四代 X-MAN 4.0 ,為 AI 和 HPC 等計(jì)算場景進(jìn)行了新的優(yōu)化設(shè)計(jì)。配置方面,每臺 X-MAN 4.0 包含8張搭載 NVLink 互聯(lián)技術(shù)的 NVIDIA A100-80GB GPU , 并可支持 8 張 200Gb/s 的 InfiniBand 網(wǎng)卡,實(shí)現(xiàn)了高速存儲、高速無阻網(wǎng)絡(luò)、高性能計(jì)算于一體的超級 AI 計(jì)算機(jī)。架構(gòu)方面, X-MAN 4.0 全新設(shè)計(jì)的架構(gòu)縮短了數(shù)據(jù)傳輸延遲,提高了數(shù)據(jù)傳輸帶寬,有效解決本地?cái)?shù)據(jù)傳輸?shù)?a target="_blank">通信瓶頸,降低 AI 作業(yè)中 GPU 的閑置時間。在 MLCommons 1.1 榜單中, X-MAN 4.0 在同配置單機(jī)硬件性能名列 TOP2 。
為了實(shí)現(xiàn)更高的集群運(yùn)行性能,百度智能云專門設(shè)計(jì)了適用于超大規(guī)模集群的 InfiniBand 網(wǎng)絡(luò)架構(gòu)。這個架構(gòu)優(yōu)化了網(wǎng)絡(luò)收斂比,提升了網(wǎng)絡(luò)吞吐能力。并結(jié)合容錯、交換機(jī)親和,拓?fù)溆成涞仁侄?,得以?EFLOPS 級算力的計(jì)算集群性能發(fā)揮到極致。
應(yīng)用效果
經(jīng)過百度內(nèi)部 NLP 研究團(tuán)隊(duì)的驗(yàn)證,在這個網(wǎng)絡(luò)環(huán)境下的超大規(guī)模集群上提交千億模型訓(xùn)練作業(yè)時,同等機(jī)器規(guī)模下整體訓(xùn)練效率是普通 GPU 集群的 3.87 倍。
2022 年 3 月 1 日百度發(fā)布的 Q4 及 2021 全年財(cái)報顯示,百度智能云2021年實(shí)現(xiàn)全年總營收 151 億元,同比增長 64% 。高速增長的背后,是百度智能云在研發(fā)能力上的持續(xù)投入,以保持云智一體的技術(shù)引領(lǐng),為客戶提供堅(jiān)實(shí)的基礎(chǔ)架構(gòu)與服務(wù)平臺。
百度副總裁謝廣軍先生表示:“AI原生云是推動企業(yè)智能化升級的核心驅(qū)動力。作為中國AI公有云服務(wù)市場領(lǐng)跑企業(yè),百度智能云一直在優(yōu)化提升智能計(jì)算的核心能力。X-MAN 4.0助力百度內(nèi)部業(yè)務(wù)發(fā)展的同時,我們也愿意將這一領(lǐng)先的架構(gòu)開放給百度智能云的眾多客戶,幫助大家一起更高效地進(jìn)行AI研發(fā)與探索,驅(qū)動業(yè)務(wù)創(chuàng)新,邁向AI原生。”
審核編輯:郭婷
-
gpu
+關(guān)注
關(guān)注
28文章
5267瀏覽量
136051 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7837瀏覽量
93451 -
AI
+關(guān)注
關(guān)注
91文章
41006瀏覽量
302542
發(fā)布評論請先 登錄
百度地圖與NIMO眼鏡達(dá)成深度合作
百度地圖LD解決方案助力無人配送行業(yè)規(guī)?;?b class='flag-5'>落地
百度智能云推出首個國產(chǎn)企業(yè)級滿血版OpenClaw產(chǎn)品DuMate
百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5
百度世界大會亮點(diǎn) 五年五芯 百度宣布打造最硬AI云
昆侖芯科技亮相2025百度云智大會
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級
百度智能云亮相第二十二屆ChinaJoy
高性能計(jì)算集群在AI領(lǐng)域的應(yīng)用前景
NVIDIA助力百度智能云落地新一代高性能AI計(jì)算集群
評論