哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

未來智算中心:從單數(shù)據(jù)中心到多數(shù)據(jù)中心AI訓練集群的演變趨勢

SDNLAB ? 來源:SDNLAB ? 2024-11-13 10:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

去年以來,以ChatGPT為代表的大模型迅速紅遍全球,展現(xiàn)出變革經(jīng)濟社會的巨大潛能。全球主流科技公司紛紛參與其中,推動智能算力需求高速增長。華為公司去年曾預測,到2025年,智能算力需求將增長100倍。

與之相呼應的,是蓬勃興起的智算中心。從政策面看,我國2022年全面啟動“東數(shù)西算”工程建設,在京津冀、長三角、粵港澳大灣區(qū)、成渝、內(nèi)蒙古、貴州、甘肅、寧夏建設8個國家算力樞紐,并規(guī)劃了10個國家數(shù)據(jù)中心集群。從產(chǎn)業(yè)來看,運營商資本開支重心正在向算力偏移,并大規(guī)模采購智算設備。

智算中心的未來將如何演變?構(gòu)建跨數(shù)據(jù)中心的AI訓練集群是其中一個重要研究方向, “Region Scale Al”,已經(jīng)成為業(yè)界關(guān)注的熱點話題。

ODCC(開放數(shù)據(jù)中心委員會)攜手華為公司,在2024年3月28日召開的ODCC春季全會-新技術(shù)與測試工作組會議上提出了“Region Scale AI”研究項目。華為2012網(wǎng)絡技術(shù)實驗室專家李映輝做了《Region Scale AI 場景與挑戰(zhàn)》主題報告,介紹了AI大模型訓練對算力需求不斷增加的背景下,多數(shù)據(jù)中心聯(lián)合訓練的發(fā)展趨勢與業(yè)界實踐,深入分析了該場景下面臨的組網(wǎng)和通信挑戰(zhàn),通過現(xiàn)網(wǎng)實驗數(shù)據(jù)初步論證了AI集群跨AZ、跨Region聯(lián)合訓練的可行性,并給出了“Region Scale AI”研究項目的工作計劃。李映輝因為此項目立項,榮獲ODCC2024年春季全會MVP演講嘉賓稱號。

報告中,還介紹了該場景下的創(chuàng)新技術(shù)探索和研究工作,包括跨AZ的模型切分算法、集合通信算法,以及如何在長距網(wǎng)絡上實現(xiàn)高吞吐傳輸、高性能加解密協(xié)議等等。同時指出,隨著AI模型的增大以及芯片算力的增強,未來跨AZ訓練對網(wǎng)絡帶寬的需求還會進一步增長,需要進一步考慮DCN和DCI網(wǎng)絡架構(gòu)的演進。

單集群AI訓練存在極限,跨DC AI訓練成趨勢

業(yè)內(nèi)人士都能感受到AI大模型發(fā)展的加速度。主流科技公司正在盡可能快地開發(fā)大模型并迭代新版本,以期在這個全新的產(chǎn)業(yè)中占據(jù)先機。大模型的訓練參數(shù)在過去5年增長百倍,已經(jīng)達到萬億級,預計未來5年參數(shù)將再增長百倍,達到百萬億量級!

智算能力也隨之快速升級,目前單一數(shù)據(jù)中心已經(jīng)達到萬卡集群規(guī)模,以盡力滿足幾乎永無止境的AI計算需求。公開消息顯示,華為昇騰AI集群2023年升級為萬卡AI集群;螞蟻基礎(chǔ)大模型已具備萬卡AI集群;中國電信宣布推出了首個國產(chǎn)單池萬卡液冷算力集群。

AI集群是通過將多個計算機節(jié)點連接起來,形成協(xié)同工作的計算環(huán)境,從而為人工智能應用提供強大的計算能力和數(shù)據(jù)處理能力。據(jù)了解,其技術(shù)門檻隨著訓練量快速增長而不斷抬高,絕非簡單的算力設備堆砌。僅有少數(shù)幾家廠商能夠提供萬卡AI集群,面對大模型參數(shù)的指數(shù)級增長,壓力巨大。

然而,任何具體事物都存在極限,算力集群同樣如此。單一AI集群不可能無限制擴張,會受到電力供應等因素影響,比如一些公司甚至考慮將數(shù)據(jù)中心建設在核電站附近。預計今后一個十萬卡級別的AI集群,需要上百MW的電力供應??鐢?shù)據(jù)中心AI訓練可以有效解決單集群供電不足問題,引起業(yè)界廣泛關(guān)注。

此外,云計算有峰谷效應,單集群算力面臨部署碎片化問題,難以承載云上大規(guī)模AI訓練業(yè)務,導致資源利用率下降。采用多個數(shù)據(jù)中心組成的跨AZ、跨Region AI訓練集群,可有效支撐十萬卡甚至百萬卡級別的訓練任務,同時提高資源利用率,將是智算產(chǎn)業(yè)發(fā)展和探索的重要方向。

業(yè)界大型科技公司紛紛啟動跨DC訓練技術(shù)研究

面向云上AI資源碎片化問題,微軟提出了“Singularity”框架,Planet-scale可搶占、可遷移、可彈性伸縮的AI任務調(diào)度。該框架可實現(xiàn)資源調(diào)度高彈性和可遷移性,增加云上AI資源利用率,但缺乏關(guān)注跨集群的訓練性能。面向公有云AI訓練網(wǎng)絡異構(gòu)問題,AWS提出了MiCS方案,能夠充分利用異構(gòu)網(wǎng)絡帶寬,通過減少較慢鏈路上的網(wǎng)絡流量,攤銷昂貴的全局梯度同步開銷。為了解決AI訓練集群造價昂貴問題,Meta提出去中心化異構(gòu)訓練。利用分布式、異構(gòu)和低帶寬互聯(lián)的AI訓練資源來訓練基礎(chǔ)大模型,降低訓練成本。

Region Scale AI研究計劃啟動,已制定進度表

華為云技術(shù)專家楊永強近日在交流中向SDNLAB表示,數(shù)字經(jīng)濟是根本,東數(shù)西算是實施的第一步,華為云大力支持國家的東數(shù)西算戰(zhàn)略,積極布局Regionless等技術(shù)創(chuàng)新,其中東數(shù)西訓自不必說,而跨AZ、跨Region、線上線下跨集群的AI訓練等高階訴求也日益顯現(xiàn)。參數(shù)交換會大幅提升跨Region的數(shù)據(jù)流量,弱網(wǎng)長距下的Regionless確定性高速傳輸需求迫切,有機會打造成東數(shù)西算的 “特高壓”。

“Region Scale AI研究”項目旨在通過跨數(shù)據(jù)中心聯(lián)合訓練,突破單集群建設限制,靈活高效利用算力資源。未來幾個月,ODCC將與業(yè)界針對Region Scale AI面臨的技術(shù)挑戰(zhàn)展開具體研究,探索技術(shù)方向,期望在年內(nèi)形成研究成果,并在9月份ODDC年度大會進行成果發(fā)布。

0e147092-9063-11ef-a511-92fbcf53809c.png

數(shù)字經(jīng)濟時代,算力就是生產(chǎn)力。尤其是智能算力,在復雜的國際政經(jīng)形勢下,能否取得突破,關(guān)系到新型數(shù)字技術(shù)的產(chǎn)業(yè)競爭力。ODCC跨AZ訓練立項已經(jīng)走出了第一步,探索智算產(chǎn)業(yè)的發(fā)展路徑。未來華為公司會繼續(xù)在產(chǎn)業(yè)界開展分布式AI訓練的聯(lián)合創(chuàng)新、認證測試、標準制定等系列工作,也愿意與業(yè)界伙伴一起,賦能我國數(shù)字經(jīng)濟產(chǎn)業(yè)的高質(zhì)量發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    18

    文章

    5759

    瀏覽量

    75196
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41025

    瀏覽量

    302545

原文標題:AI訓練集群從單DC擴展至多DC,智算中心的未來將如何演變?

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)

    數(shù)據(jù)中心
    沛城芯動力
    發(fā)布于 :2026年02月03日 15:39:04

    數(shù)據(jù)中心UPS并機方案:公用電池組的優(yōu)缺點深度分析

    數(shù)據(jù)中心
    上海優(yōu)比施電子科技有限公司
    發(fā)布于 :2026年01月31日 09:32:34

    派恩杰SiC器件在數(shù)據(jù)中心中的應用

    傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)到人工智能數(shù)據(jù)中心(AIDC)的演進,本質(zhì)上是一場能源效率與力密度的極限競賽。AI
    的頭像 發(fā)表于 12-24 15:47 ?2388次閱讀
    派恩杰SiC器件在<b class='flag-5'>數(shù)據(jù)中心</b>中的應用

    NVIDIA軟件可選服務支持數(shù)據(jù)中心集群管理

    這項可選服務將幫助數(shù)據(jù)中心運營商監(jiān)測整個 AI GPU 集群運行狀況,從而最大限度地延長正常運行時間。
    的頭像 發(fā)表于 12-13 09:37 ?1048次閱讀
    NVIDIA軟件可選服務支持<b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>集群</b>管理

    人工智能數(shù)據(jù)中心的光纖布線策略

    人工智能數(shù)據(jù)中心的光纖布線策略,包括布線規(guī)劃、光纖選型、架構(gòu)設計、成本優(yōu)化以及未來趨勢等。 布線規(guī)劃的重要性 在人工智能數(shù)據(jù)中心中,光纖布線的規(guī)劃是確保系統(tǒng)高效運行的關(guān)鍵步驟。合理的布
    的頭像 發(fā)表于 11-21 10:21 ?587次閱讀

    Credo攜1.6T Bluebird DSP破解AI數(shù)據(jù)中心算力瓶頸

    高速連接17年的企業(yè)再擲重磅——發(fā)布 新一代1.6T Bluebird DSP ,為AI數(shù)據(jù)中心的“力軍備競賽”注入關(guān)鍵動力。 當下,AI大模型
    的頭像 發(fā)表于 10-17 14:49 ?952次閱讀
    Credo攜1.6T Bluebird DSP破解<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>算力瓶頸

    AI數(shù)據(jù)中心供電系統(tǒng)的發(fā)展現(xiàn)狀和未來趨勢

    AI數(shù)據(jù)中心作為數(shù)字時代的核心基礎(chǔ)設施,承擔著海量數(shù)據(jù)的存儲、處理和傳輸任務,而供電系統(tǒng)是其穩(wěn)定運行的“生命線”。隨著云計算、大數(shù)據(jù)、人工智能等技術(shù)的快速發(fā)展,
    的頭像 發(fā)表于 09-24 17:07 ?4235次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>供電系統(tǒng)的發(fā)展現(xiàn)狀和<b class='flag-5'>未來</b><b class='flag-5'>趨勢</b>

    華為星河AI數(shù)據(jù)中心網(wǎng)絡亮相ODCC 2025

    以“擁抱AI變革 點燃網(wǎng)引擎”為主題的2025開放數(shù)據(jù)中心大會(以下簡稱“ODCC 2025”)在北京國際會議中心召開。在這場匯集了數(shù)據(jù)中心
    的頭像 發(fā)表于 09-16 14:54 ?2781次閱讀
    華為星河<b class='flag-5'>AI</b>高<b class='flag-5'>算</b>效<b class='flag-5'>數(shù)據(jù)中心</b>網(wǎng)絡亮相ODCC 2025

    華為數(shù)字能源亮相2025開放數(shù)據(jù)中心大會

    AI變革,點燃網(wǎng)引擎”為主題,云集全球數(shù)據(jù)中心領(lǐng)域權(quán)威專家、頭部企業(yè)代表、高校學者,聚焦電協(xié)同、液冷、邊緣計算等熱門話題,深度探討和分享智
    的頭像 發(fā)表于 09-11 13:50 ?1401次閱讀

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    引領(lǐng)AI時代網(wǎng)絡變革:睿海光電的核心競爭力 在AI時代,數(shù)據(jù)中心正經(jīng)歷傳統(tǒng)架構(gòu)向AI工廠與AI
    發(fā)表于 08-13 19:01

    加速AI未來,睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標準

    客戶的共同選擇 超中心應用 :為某國家實驗室提供800G OSFP SR8模塊,構(gòu)建E級超互聯(lián)網(wǎng)絡 AI訓練
    發(fā)表于 08-13 16:38

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    數(shù)據(jù)中心的整體可靠性。以下是其核心作用及具體應用場景的詳細分析:一、性能優(yōu)化:突破帶寬瓶頸,提升計算效率 鏈路帶寬利用率分析 場景:在AI訓練集群中,GPU通過PCIe與CPU交換
    發(fā)表于 07-29 15:02

    中型數(shù)據(jù)中心中的差分晶體振蕩器應用與匹配方案

    同步模塊等。 2. 高校/科研機構(gòu)智能計算中心 應用背景: 服務于AI訓練、大數(shù)據(jù)建模與圖像處理的科研計算平臺,要求高速網(wǎng)絡與大容量數(shù)據(jù)同步
    發(fā)表于 07-01 16:33

    數(shù)據(jù)中心都在用的差分晶振,看完你就懂了

    數(shù)據(jù)中心
    FCom富士晶振
    發(fā)布于 :2025年05月30日 13:12:30

    利用NVIDIA技術(shù)構(gòu)建數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案

    全球領(lǐng)先的電子制造商正在利用 NVIDIA 技術(shù),構(gòu)建數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案。
    的頭像 發(fā)表于 05-22 09:50 ?1167次閱讀
    连云港市| 龙游县| 庐江县| 波密县| 泽州县| 如东县| 峡江县| 利辛县| 广灵县| 隆尧县| 榆社县| 通道| 手游| 乌拉特前旗| 长宁县| 梁平县| 合山市| 桃源县| 应城市| 肥东县| 呼伦贝尔市| 城步| 沙湾县| 道孚县| 儋州市| 望江县| 桦川县| 青龙| 屯昌县| 普陀区| 永德县| 静安区| 遵化市| 朝阳县| 日照市| 赤峰市| 琼海市| 托克逊县| 荔波县| 林州市| 布尔津县|