2022年3月,NVIDIA發(fā)布了首款數(shù)據(jù)中心CPU Grace、新一代高性能計(jì)算GPU Hopper,同時(shí)利用它們打造了兩顆“超級(jí)芯片”(Super Chip),一是Grace CPU二合一,二是Grace CPU+Hopper GPU二合一,看起來(lái)都極為酷炫。
現(xiàn)在,足足14個(gè)月過(guò)去了,NVIDIA終于宣布,GH200 Grace Hopper超級(jí)芯片已經(jīng)全面投產(chǎn),將為復(fù)雜AI、HPC工作負(fù)載提供澎湃的動(dòng)力。
再加上Grace CPU、Hopper GPU、Ada Lovelace GPU、BlueField DPU等全套系統(tǒng)方案,NVIDIA現(xiàn)在已經(jīng)有400多種配置,可滿足市場(chǎng)對(duì)生成式AI的激增需求。
歐洲和美國(guó)的超大規(guī)模云服務(wù)商、超算中心,將會(huì)成為接入GH200系統(tǒng)的首批客戶。
同時(shí),黃仁勛還公布了Grace Hopper的更多細(xì)節(jié),尤其是它的CPU、GPU之間使用NVLink-C2C互連技術(shù),總帶寬高達(dá)900GB/s,相比傳統(tǒng)的PCIe 5.0通道超出足足7倍,能夠滿足要求最苛刻的生成式AI和HPC應(yīng)用,功耗也降低了超過(guò)80%。
Grace Hopper是一塊CPU+GPU合體的超級(jí)芯片,CPU是NVIDIA自研的72核處理器,Neoverse V2內(nèi)核,擁有480GB LPDDR5內(nèi)存,512GB/s帶寬。
GPU部分是H100,F(xiàn)P64性能34TFLOPS,但更強(qiáng)的是INT8性能,AI運(yùn)算能力達(dá)到了3958TFLOPS,帶96GB HBM3內(nèi)存。
同時(shí),NVIDIA發(fā)布了針對(duì)AI推出的大內(nèi)存DGX GH200超算系統(tǒng),配備了256個(gè)Grace Hopper芯片,總計(jì)1.8萬(wàn)CPU核心,144TB內(nèi)存,相比之前漲了500倍。
AI運(yùn)算對(duì)內(nèi)存容量的要求更高,所以DGX GH200通過(guò)最新的NVLink、NVLink Switch等技術(shù)連接了256塊Grace Hooper超級(jí)芯片,實(shí)現(xiàn)了極為夸張的性能及內(nèi)存。
GH200總計(jì)有256塊Grace Hooper芯片,因此總計(jì)18432個(gè)CPU核心,144TB HBM3內(nèi)存,AI性能達(dá)到了1 exaFLOPS,也就是100億億次。
這是什么概念?當(dāng)前最強(qiáng)的TOP500超算也就是百億億次性能,只不過(guò)這個(gè)性能是HPC計(jì)算的,NVIDIA的是百億億次AI性能。

為了讓256個(gè)超級(jí)芯片互聯(lián),GH200還使用了256塊單口400Gb/s InfiniBand互聯(lián)芯片,256個(gè)雙口200Gb/s InfiniBand芯片,還有96組L1 NVLink、36組L2 NVLink開(kāi)關(guān)等等,設(shè)計(jì)非常復(fù)雜。
NVIDIA表示,谷歌、Meta及微軟是首批獲得DGX H200系統(tǒng)的公司,后續(xù)他們還會(huì)開(kāi)放給更多客戶,運(yùn)行客戶定制。
不過(guò)DGX H200還不是最強(qiáng)的,NVIDIA今年晚些時(shí)候會(huì)推出名為NVIDIA Helios的AI超算系統(tǒng),由4組GH200組成,總計(jì)1024個(gè)Grace Hooper超級(jí)芯片,576TB HBM內(nèi)存。
黃仁勛還向傳統(tǒng)的CPU服務(wù)器集群發(fā)起“挑戰(zhàn)”,認(rèn)為在人工智能和加速計(jì)算這一未來(lái)方向上,GPU服務(wù)器有著更為強(qiáng)大的優(yōu)勢(shì)。
根據(jù)黃仁勛在演講上展示的范例,訓(xùn)練一個(gè)LLM大語(yǔ)言模型,將需要960個(gè)CPU組成的服務(wù)器集群,這將耗費(fèi)大約1000萬(wàn)美元(約合人民幣7070萬(wàn)元),并消耗11千兆瓦時(shí)的電力。

相比之下,同樣以1000萬(wàn)美元的成本去組建GPU服務(wù)器集群,將以僅3.2千兆瓦時(shí)的電力消耗,訓(xùn)練44個(gè)LLM大模型。

如果同樣消耗11千兆瓦時(shí)的電量,那么GPU服務(wù)器集群能夠?qū)崿F(xiàn)150倍的加速,訓(xùn)練150個(gè)LLM大模型,且占地面積更小。
而當(dāng)用戶僅僅想訓(xùn)練一個(gè)LLM大模型時(shí),則只需要一個(gè)40萬(wàn)美元左右,消耗0.13千兆瓦時(shí)電力的GPU服務(wù)器即可。
換言之,相比CPU服務(wù)器,GPU服務(wù)器能夠以4%的成本和1.2%的電力消耗來(lái)訓(xùn)練一個(gè)LLM,這將帶來(lái)巨大的成本節(jié)省。
審核編輯 :李倩
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5682瀏覽量
110102 -
gpu
+關(guān)注
關(guān)注
28文章
5266瀏覽量
136040 -
超級(jí)芯片
+關(guān)注
關(guān)注
0文章
39瀏覽量
9338
原文標(biāo)題:領(lǐng)先幾光年!NVIDIA CPU+GPU超級(jí)芯片終于量產(chǎn)
文章出處:【微信號(hào):hdworld16,微信公眾號(hào):硬件世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Oracle和NVIDIA合作加速向量搜索和企業(yè)數(shù)據(jù)處理
借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程
NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)
在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程
NVIDIA擴(kuò)大與微軟合作推動(dòng)AI超級(jí)工廠建設(shè)
NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試
NVIDIA在ISC 2025分享最新超級(jí)計(jì)算進(jìn)展
NVIDIA推出NVQLink高速互連架構(gòu)
NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析
NVIDIA CPU+GPU超級(jí)芯片終于量產(chǎn)
評(píng)論