什么是IPT(In-band Path Telemetry)?
IPT是 In-band Path Telemetry 的縮寫,中文譯為 “帶內(nèi)路徑遙測(cè)”。IPT是INT技術(shù)的標(biāo)準(zhǔn)方案之一,也是實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)平面可觀測(cè)性的一種核心技術(shù)。要理解“帶內(nèi)”,首先要對(duì)比“帶外”;
- 帶外遙測(cè):網(wǎng)絡(luò)設(shè)備(如交換機(jī)、路由器)會(huì)定期、主動(dòng)地收集自身的性能數(shù)據(jù)(如端口計(jì)數(shù)、CPU負(fù)載),并通過獨(dú)立的管理通道(如SNMP、gRPC)上報(bào)給控制平面或網(wǎng)管系統(tǒng)。數(shù)據(jù)流和業(yè)務(wù)報(bào)文是分離的。
- 帶內(nèi)遙測(cè):業(yè)務(wù)報(bào)文本身在轉(zhuǎn)發(fā)過程中,會(huì)“攜帶”其流經(jīng)路徑的網(wǎng)絡(luò)狀態(tài)信息。這些信息被直接寫入數(shù)據(jù)包內(nèi)部,并隨數(shù)據(jù)包一同被傳送到目的地或指定的收集點(diǎn)。
所以,IPT的核心思想就是,將網(wǎng)絡(luò)測(cè)量任務(wù)從網(wǎng)管設(shè)備(帶外)下放到數(shù)據(jù)報(bào)文(帶內(nèi))本身。讓數(shù)據(jù)包在穿越網(wǎng)絡(luò)時(shí),像“偵探”一樣,沿途自動(dòng)收集每一跳設(shè)備的實(shí)時(shí)狀態(tài)信息,并將這些證據(jù)(遙測(cè)數(shù)據(jù))封裝在自己體內(nèi),最終送達(dá)分析端。
IPT的技術(shù)實(shí)現(xiàn)
在現(xiàn)有報(bào)文格式(如以太網(wǎng)幀、IPv4/IPv6包)中插入一個(gè)INT頭部和一系列INT指令,預(yù)留出空間來存放待收集的數(shù)據(jù)。需要支持INT的設(shè)備(稱為“INT節(jié)點(diǎn)”或“Telemetry Node”)在轉(zhuǎn)發(fā)該報(bào)文時(shí),會(huì)識(shí)別INT指令,并根據(jù)指令要求,將本地的特定信息(如交換機(jī)ID、入口/出口端口、時(shí)間戳、隊(duì)列深度、鏈路利用率等)寫入報(bào)文預(yù)留的INT數(shù)據(jù)區(qū)。所有信息都在數(shù)據(jù)內(nèi)部添加和傳輸,不需要再為遙測(cè)單獨(dú)建立通道或額外發(fā)送探測(cè)報(bào)文。
IPT 報(bào)文格式
IPT報(bào)文由多層頭部構(gòu)成,包含L2/L3封裝、GRE頭部、IPT Shim頭部、探針標(biāo)記及各節(jié)點(diǎn)統(tǒng)計(jì)信息等字段。
IPT工作流程
IPT通過入口節(jié)點(diǎn)生成探測(cè)包、傳輸節(jié)點(diǎn)收集信息、出口節(jié)點(diǎn)封裝報(bào)文發(fā)送的整理流程圖,實(shí)現(xiàn)端到端路徑信息采集。探測(cè)數(shù)據(jù)包為原始數(shù)據(jù)包的克?。╬ayload截?cái)啵?,沿與原始包相同路徑傳輸,并在各個(gè)節(jié)點(diǎn)插入統(tǒng)計(jì)信息,最終發(fā)送至用戶配置的收集器。

IPT能做什么呢?
IPT提供了一種高實(shí)時(shí)性、與業(yè)務(wù)流完全同步的網(wǎng)絡(luò)路徑狀態(tài)的洞察能力。
精準(zhǔn)的故障與性能問題定位
傳統(tǒng)定位故障問題的方法:網(wǎng)絡(luò)管理員收到告警(如“服務(wù)器A到B延遲高”),需要逐跳登錄設(shè)備、查看計(jì)數(shù)器、抓包分析,耗時(shí)長(zhǎng),難以定位到具體哪一跳、哪個(gè)端口、哪個(gè)隊(duì)列出了問題。
IPT可以直接從出問題的數(shù)據(jù)流本身的INT報(bào)告中,就能看到整條路徑上每一跳的詳細(xì)信息。舉個(gè)例子:通過報(bào)告可以發(fā)現(xiàn)“在交換機(jī)3的出口端口Ethernet1/1/1上,隊(duì)列2的排隊(duì)延遲突增了50ms”,這樣就實(shí)現(xiàn)秒級(jí)甚至亞秒級(jí)的根因定位。
網(wǎng)絡(luò)性能可視化與基線建立
持續(xù)收集關(guān)鍵業(yè)務(wù)流的路徑數(shù)據(jù),可以繪制出網(wǎng)絡(luò)性能的精細(xì)圖譜,實(shí)現(xiàn)端到端性能的可視化,包括逐跳的延遲、抖動(dòng)、丟包、擁塞點(diǎn)等?;谶@些真實(shí)數(shù)據(jù)建立性能基線,任何偏離基線的異常都可以被快速檢測(cè)出來,輔助運(yùn)維決策。
自動(dòng)化與智能運(yùn)維
為SDN控制器、網(wǎng)絡(luò)分析器或AIOps平臺(tái)提供高質(zhì)量、實(shí)時(shí)、關(guān)聯(lián)性極強(qiáng)的輸入數(shù)據(jù),可用于訓(xùn)練AI模型。使得網(wǎng)絡(luò)能夠?qū)崿F(xiàn)基于真實(shí)流量狀態(tài)的動(dòng)態(tài)優(yōu)化,如自動(dòng)重路由(將受擁塞影響的流量切換到其他路徑)、主動(dòng)緩存調(diào)整、容量規(guī)劃等。
服務(wù)等級(jí)協(xié)議保障與驗(yàn)證
對(duì)于云服務(wù)商或企業(yè),可以針對(duì)VIP客戶或關(guān)鍵應(yīng)用(如視頻會(huì)議、金融交易)的流量啟用IPT。直接驗(yàn)證從源頭到目的地的SLA指標(biāo)(如端到端延遲、丟包率)是否達(dá)標(biāo),并提供無法抵賴的、逐跳的證據(jù)。
典型應(yīng)用場(chǎng)景 - 端到端路徑時(shí)延監(jiān)控
在某超千卡GPU集群的大規(guī)模訓(xùn)練場(chǎng)景中,All-Reduce等集合通信操作對(duì)網(wǎng)絡(luò)時(shí)延極度敏感,其完成速度取決于最慢的路徑。傳統(tǒng)監(jiān)控手段難以精準(zhǔn)定位網(wǎng)絡(luò)鏈路中的隱患。IPT技術(shù)通過實(shí)現(xiàn)納秒級(jí)精度的端到端路徑時(shí)延透視,為解決此問題提供了根本性方案。

訓(xùn)練過程中,梯度數(shù)據(jù)需經(jīng)多臺(tái)Leaf/Spine交換機(jī)轉(zhuǎn)發(fā)。IPT通過探測(cè)數(shù)據(jù)包采集各節(jié)點(diǎn)轉(zhuǎn)發(fā)時(shí)延,結(jié)合入口到出口的總時(shí)延,定位高延遲節(jié)點(diǎn)(如某Spine交換機(jī)轉(zhuǎn)發(fā)時(shí)延異常升高),輔助調(diào)整流量轉(zhuǎn)發(fā)路徑,避免因單節(jié)點(diǎn)延遲導(dǎo)致整體訓(xùn)練效率下降。
通過IPT實(shí)現(xiàn)的端到端路徑時(shí)延監(jiān)控,將網(wǎng)絡(luò)從“黑盒”變?yōu)椤鞍缀小?,把?xùn)練效率的瓶頸定位從“猜測(cè)GPU或軟件問題”精確到“證實(shí)并定位網(wǎng)絡(luò)硬件或微突發(fā)流量問題”,從而將小時(shí)級(jí)甚至天級(jí)的故障排查過程縮短至分鐘級(jí),有效保障了萬卡集群的算力高效、穩(wěn)定輸出。
-
監(jiān)控
+關(guān)注
關(guān)注
6文章
2397瀏覽量
59575 -
IPT
+關(guān)注
關(guān)注
0文章
3瀏覽量
8813 -
Int
+關(guān)注
關(guān)注
0文章
27瀏覽量
16492
發(fā)布評(píng)論請(qǐng)先 登錄
INT技術(shù)眾多,為何IPT能成為路徑性能監(jiān)控的首選方案?
評(píng)論