亚洲日韩欧美精品无码,jiujiuri视频

2022年3月，NVIDIA發(fā)布了首款數(shù)據(jù)中心 CPU Grace、新一代高性能計(jì)算GPU Hopper，同時(shí)利用它們打造了兩顆“超級(jí)芯片”(Super Chip)，一是Grace CPU二合一，二是Grace CPU＋Hopper GPU二合一，看起來(lái)都極為酷炫。

現(xiàn)在，足足14個(gè)月過(guò)去了，NVIDIA終于宣布，GH200 Grace Hopper超級(jí)芯片已經(jīng)全面投產(chǎn)，將為復(fù)雜AI、HPC工作負(fù)載提供澎湃的動(dòng)力。

再加上Grace CPU、Hopper GPU、Ada Lovelace GPU、BlueField DPU等全套系統(tǒng)方案，NVIDIA現(xiàn)在已經(jīng)有400多種配置，可滿足市場(chǎng)對(duì)生成式AI的激增需求。

歐洲和美國(guó)的超大規(guī)模云服務(wù)商、超算中心，將會(huì)成為接入GH200系統(tǒng)的首批客戶。

同時(shí)，黃仁勛還公布了Grace Hopper的更多細(xì)節(jié)，尤其是它的CPU、GPU之間使用NVLink-C2C互連技術(shù)，總帶寬高達(dá)900GB/s，相比傳統(tǒng)的PCIe 5.0通道超出足足7倍，能夠滿足要求最苛刻的生成式AI和HPC應(yīng)用，功耗也降低了超過(guò)80％。

Grace Hopper是一塊CPU+GPU合體的超級(jí)芯片，CPU是NVIDIA自研的72核處理器，Neoverse V2內(nèi)核，擁有480GB LPDDR5內(nèi)存，512GB/s帶寬。

GPU部分是H100，F(xiàn)P64性能34TFLOPS，但更強(qiáng)的是INT8性能，AI運(yùn)算能力達(dá)到了3958TFLOPS，帶96GB HBM3內(nèi)存。

同時(shí)，NVIDIA發(fā)布了針對(duì)AI推出的大內(nèi)存DGX GH200超算系統(tǒng)，配備了256個(gè)Grace Hopper芯片，總計(jì)1.8萬(wàn)CPU核心，144TB內(nèi)存，相比之前漲了500倍。

AI運(yùn)算對(duì)內(nèi)存容量的要求更高，所以DGX GH200通過(guò)最新的NVLink、NVLink Switch等技術(shù)連接了256塊Grace Hooper超級(jí)芯片，實(shí)現(xiàn)了極為夸張的性能及內(nèi)存。

GH200總計(jì)有256塊Grace Hooper芯片，因此總計(jì)18432個(gè)CPU核心，144TB HBM3內(nèi)存，AI性能達(dá)到了1 exaFLOPS，也就是100億億次。

這是什么概念？當(dāng)前最強(qiáng)的TOP500超算也就是百億億次性能，只不過(guò)這個(gè)性能是HPC計(jì)算的，NVIDIA的是百億億次AI性能。

為了讓256個(gè)超級(jí)芯片互聯(lián)，GH200還使用了256塊單口400Gb/s InfiniBand互聯(lián)芯片，256個(gè)雙口200Gb/s InfiniBand芯片，還有96組L1 NVLink、36組L2 NVLink開(kāi)關(guān)等等，設(shè)計(jì)非常復(fù)雜。

NVIDIA表示，谷歌、Meta及微軟是首批獲得DGX H200系統(tǒng)的公司，后續(xù)他們還會(huì)開(kāi)放給更多客戶，運(yùn)行客戶定制。

不過(guò)DGX H200還不是最強(qiáng)的，NVIDIA今年晚些時(shí)候會(huì)推出名為NVIDIA Helios的AI超算系統(tǒng)，由4組GH200組成，總計(jì)1024個(gè)Grace Hooper超級(jí)芯片，576TB HBM內(nèi)存。

黃仁勛還向傳統(tǒng)的CPU服務(wù)器集群發(fā)起“挑戰(zhàn)”，認(rèn)為在人工智能和加速計(jì)算這一未來(lái)方向上，GPU服務(wù)器有著更為強(qiáng)大的優(yōu)勢(shì)。

根據(jù)黃仁勛在演講上展示的范例，訓(xùn)練一個(gè)LLM大語(yǔ)言模型，將需要960個(gè)CPU組成的服務(wù)器集群，這將耗費(fèi)大約1000萬(wàn)美元（約合人民幣7070萬(wàn)元），并消耗11千兆瓦時(shí)的電力。

相比之下，同樣以1000萬(wàn)美元的成本去組建GPU服務(wù)器集群，將以僅3.2千兆瓦時(shí)的電力消耗，訓(xùn)練44個(gè)LLM大模型。

如果同樣消耗11千兆瓦時(shí)的電量，那么GPU服務(wù)器集群能夠?qū)崿F(xiàn)150倍的加速，訓(xùn)練150個(gè)LLM大模型，且占地面積更小。

而當(dāng)用戶僅僅想訓(xùn)練一個(gè)LLM大模型時(shí)，則只需要一個(gè)40萬(wàn)美元左右，消耗0.13千兆瓦時(shí)電力的GPU服務(wù)器即可。

換言之，相比CPU服務(wù)器，GPU服務(wù)器能夠以4%的成本和1.2%的電力消耗來(lái)訓(xùn)練一個(gè)LLM，這將帶來(lái)巨大的成本節(jié)省。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴