隨著AI大模型訓推集群的規(guī)模不斷擴大,Scale-up網(wǎng)絡的重要性已不限于訓練集群側,云端推理集群對于多機之間組成超節(jié)點HBD方案的需求正在逐步增加。面對其對互聯(lián)性能的極致追求,目前業(yè)內主要采用專門設計的協(xié)議比如NVIDIA的NVLink及NVSwitch技術。在今年的GTC大會上,NVIDIA已經(jīng)明確將GPU 的HBD域互聯(lián)從72卡推進到576卡。 然而,NVIDIA的解決方案是基于私有協(xié)議,不僅成本高昂,且不對外開放。為了打破這一局面,AI網(wǎng)絡產(chǎn)業(yè)鏈在去年共同發(fā)起了UALink 加速器互聯(lián)協(xié)議聯(lián)盟,旨在推動AI網(wǎng)絡Scale-up互聯(lián)的創(chuàng)新技術發(fā)展。
奇異摩爾在2024年就加入了UALink(Ultra Accelerator Link ) 加速器間互聯(lián)協(xié)議聯(lián)盟,并積極參與UALink標準的制定。 就在本周,UALink聯(lián)盟終于迎來了1.0標準的正式發(fā)布,這一標準的發(fā)布將進一步加速AI訓推基礎設施的生態(tài)完善,助力AI網(wǎng)絡的繁榮發(fā)展。
關于第一版標準,UALink 聯(lián)盟董事會主席 Kurtis Bowman 表示:“隨著對 AI 計算的需求不斷增長,我們很高興能夠提供一項必不可少的開放行業(yè)標準技術,使下一代 AI/ML 應用能夠推向市場。UALink 是唯一一款針對擴展 AI 的內存語義解決方案,它針對降低功耗、延遲和成本進行了優(yōu)化,同時增加了有效帶寬。UALink 200G 1.0 規(guī)范帶來的突破性性能將徹底改變云服務提供商、系統(tǒng) OEM 和 IP/芯片提供商處理 AI 工作負載的方式。
UALink 協(xié)議棧包括四個硬件優(yōu)化層:物理層(physical)、數(shù)據(jù)鏈路層(data link)、事務層(transaction)和協(xié)議層(protocol)。

基于內存語義的快速GPU HBM訪問

(圖:UALink Specification 1.0Rev)
和其他Scale-up生態(tài)有所區(qū)別的是UALink從誕生那刻起就是基于內存語義。上述表格描述了兩個基于UALink的系統(tǒng)節(jié)點通過UAL交換機實現(xiàn)互聯(lián)。在這個Domain中,CPU Host可通過CXL, PCIe, AMD Infinity Fabric, XGMI等協(xié)議與GPU加速器互聯(lián)?;赨ALink協(xié)議,GPU之間通過UAlink Switch交換機與HBD域內的其他GPU互聯(lián)。
圖中特別突出的是紅線所指示的部分,在該HBD Domain中的任意GPU 都可以訪問其他GPU的HBM,從而實現(xiàn)加速器之間的快速讀取和寫入,相較于消息語義,它的通信和互聯(lián)效率是非常高的。
奇異摩爾作為Scale-up網(wǎng)絡主要芯粒提供商自研的 NDSA-G2G IO Die 未來將支持內存語義,通過與UAlink生態(tài)適配,建立更完善的內存語義互聯(lián)系統(tǒng)。
物理層特點Physical Layer

(圖:UALink Specification 1.0Rev)
UALink 物理層基于 802.3 以太網(wǎng)物理層。UALink 定義了 1、2 或 4 個串行通道,運行速率為 212.5Gbps(200GBASE-KR1/CR1、400GBASE-KR2/CR2、800GBASE-KR4/CR4)。物理層包括了使用 FEC 減少延遲的修改。該以太網(wǎng)物理層具有標準的前向 (FEC) 并遵循 IEEE P802.3dj 規(guī)范。通過單向和雙向碼字交錯,讓延遲得到改善,并且有一點變化以支持 680 字節(jié)的 flit。(Flit 或流控制單元是鏈路級別的原子數(shù)據(jù)單元)
在 PCI-Express 6.0 中,控制該標準(并且主要由英特爾主導)的 PCI-SIG 組織,并沒有僅僅實現(xiàn)標準的 FEC,而新的FEC是轉向了一種流量控制和循環(huán)冗余檢查 (CRC) 錯誤檢測的混合方式,實際上提高了信號傳輸?shù)目煽啃?,同時降低了延遲。這樣的一些機制被 UALink 采納,并且許多對于內存架構來說不必要的東西并沒有包含在其中從而輕量化了該協(xié)議。
數(shù)據(jù)鏈路層特點Data Link Layer

(圖:UALink Specification 1.0Rev)
數(shù)據(jù)鏈路層位于事務層和物理層之間。數(shù)據(jù)鏈路層將事務層的 64 字節(jié) Flit 打包成物理層的 640 字節(jié) Flit。數(shù)據(jù)鏈路層還提供鏈接伙伴之間在數(shù)據(jù)鏈路層發(fā)起和終止的消息服務。消息服務用于宣傳事務層速率、查詢連接鏈路伙伴上的設備和端口 ID 以及其他功能。消息服務還提供鏈接伙伴之間的 UART 式通信,用于固件通信。鏈路級重放是基于 640 字節(jié) Flit 提供的。計算并檢查 32 位 CRC,并且是 640 字節(jié) Flit 的一部分。此外Link Level Replay的功能確保了物理層 FEC 無法糾正的比特錯誤存在的情況下,DL Flits 的有序傳遞。發(fā)送器保留有效負載 Flits的副本,直到接收器確認它們。
事務層特點Transaction Layer

(圖:UALink Specification 1.0Rev)
UALink 1.0 Spec實現(xiàn)壓縮尋址,在實際工作負載下以高達 95% 的協(xié)議效率簡化數(shù)據(jù)傳輸。它支持直接內存操作,例如加速器之間的讀取、寫入和原子事務(atomic transactions),從而保留本地和遠程內存空間之間的順序。
協(xié)議層特點Protocol Layer

(圖:UALink Specification 1.0Rev)
UALink 的協(xié)議層稱為 UALink 協(xié)議級接口 (UPLI)。UPLI 定義了一個邏輯信號接口和協(xié)議,通過該協(xié)議,設備可以通過一組請求和響應消息交換數(shù)據(jù)和控制信息。UALink 規(guī)范完全定義了 UPLI 協(xié)議,并期望遵循該協(xié)議的實現(xiàn)將與 UALink 交換機兼容。UPLI 協(xié)議具有內置的靈活性,允許供應商創(chuàng)建自定義協(xié)議消息,用于相同類型的加速器之間的通信,而無需對 UALink 交換機進行任何修改。UALink 協(xié)議級接口是主要接口,實現(xiàn)可能在此基礎上開發(fā),通常使用第三方供應商提供的堆棧其余部分的 IP。
協(xié)議輕量化降低數(shù)據(jù)中心功耗
UALink的一個非常突出的特點就是整體設計簡單輕量化。據(jù)悉,UALink 的功耗僅為同等以太網(wǎng) ASIC 芯片面積的一半到三分之一(每個端口),并且每個內存結構加速器可節(jié)省 150 瓦到 200 瓦的功耗。更小的芯片尺寸意味著更便宜的芯片,更低的功耗意味著更少的電力和冷卻消耗,從而降低整體 TCO。
UALink如何在中國市場落地
UALink國際互聯(lián)系統(tǒng)開發(fā)標準在中國的應用落地,需要產(chǎn)業(yè)鏈上下游的協(xié)同配合。因此,聯(lián)盟成員囊括了國內芯片制造商、以奇異摩爾為代表的芯粒廠商,以及交換機提供商等關鍵角色。在今年的ODCC春季全體會議上,ODCC新測組組長郭亮與UALink董事會成員孔陽博士簽署了MOU合作備忘錄,這標志著國內AI網(wǎng)絡Scale-up技術創(chuàng)新與應用將步入快車道。
奇異摩爾作為ALS系統(tǒng)及UALink聯(lián)盟的生態(tài)成員,正與阿里云等頭部云廠商、GPU廠商通力合作,通過制定生態(tài)標準、提供GPU IO Die(NDSA-G2G)等解決方案,加速國產(chǎn)大模型訓練推理技術的發(fā)展。
關于我們
AI網(wǎng)絡全棧式互聯(lián)架構產(chǎn)品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業(yè)領先的AI網(wǎng)絡全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術,創(chuàng)新性地構建了統(tǒng)一互聯(lián)架構——Kiwi Fabric,專為超大規(guī)模AI計算平臺量身打造,以滿足其對高性能互聯(lián)的嚴苛需求。
我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關鍵產(chǎn)品,如面向北向Scale out網(wǎng)絡的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡的GPU片間互聯(lián)芯粒、以及面向芯片內算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構成了全鏈路互聯(lián)解決方案,為AI計算提供了堅實的支撐。
奇異摩爾的核心團隊匯聚了來自全球半導體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗,致力于推動技術創(chuàng)新和業(yè)務發(fā)展。團隊擁有超過50個高性能網(wǎng)絡及Chiplet量產(chǎn)項目的經(jīng)驗,為公司的產(chǎn)品和服務提供了強有力的技術保障。我們的使命是支持一個更具創(chuàng)造力的芯世界,愿景是讓計算變得簡單。奇異摩爾以創(chuàng)新為驅動力,技術探索新場景,生態(tài)構建新的半導體格局,為高性能AI計算奠定穩(wěn)固的基石。
-
加速器
+關注
關注
2文章
841瀏覽量
40232 -
AI
+關注
關注
91文章
40985瀏覽量
302537 -
奇異摩爾
+關注
關注
0文章
85瀏覽量
4073
原文標題:生態(tài)共建 | UALink 加速器互聯(lián)協(xié)議聯(lián)盟1.0版本正式發(fā)布
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
奇異摩爾與圖靈量子達成深度戰(zhàn)略合作
奇異摩爾亮相2026 Open AI Infra Summit
中興通訊攜手全球伙伴共建開放繁榮AI生態(tài)
奇異摩爾聯(lián)合成立智算互聯(lián)芯粒實驗室
奇異摩爾攜手產(chǎn)業(yè)伙伴共建IO-NET芯粒工作組
奇異摩爾榮獲2025全國獨角獸企業(yè)大賽總決賽優(yōu)勝獎
UALink協(xié)議引領人工智能計算領域變革
奇異摩爾助力中國移動GSE 2.5版本協(xié)議標準發(fā)布
奇異摩爾Networking for AI生態(tài)沙龍成功舉辦
奇異摩爾助力OISA全向智感互聯(lián)IO芯粒技術白皮書發(fā)布
摩爾線程攜手生態(tài)合作伙伴打造的AI教育實訓基地啟用
奇異摩爾攜手中國移動發(fā)布OISA 2.0協(xié)議
奇異摩爾攜手UALink聯(lián)盟助力AI網(wǎng)絡繁榮發(fā)展
評論