伴隨AI大模型爆發(fā)式增長,千卡級AI集群普及,服務器功率密度攀升,傳統(tǒng)功耗管理已難滿足能效需求。開放原子開源基金會發(fā)起的第三屆開放原子大賽攜手OurBMC社區(qū)和飛騰信息,推出“基于BMC的整機功耗智能管理”賽題,探索輕量級AI模型部署路徑,推動AI與OurBMC項目融合。
賽事匯聚78支隊伍、130余位開發(fā)者,歷經四月實戰(zhàn)角逐。開發(fā)者們深耕技術、打磨方案,不僅積累了全流程實踐經驗,更深化了BMC功耗管理認知,以開源協(xié)作驅動技術突破,為綠色計算注入動能。我們特邀獲獎企業(yè)團隊分享歷程,展現(xiàn)開源生態(tài)魅力與前沿技術力量。
AI與硬件管控深度融合,實現(xiàn)安全與節(jié)能雙贏
昆侖太科BMC團隊由BMC領域資深工程師組成,深耕OpenBMC架構研發(fā)多年。針對傳統(tǒng)PID控制在服務器溫控中難以平衡功耗與散熱的痛點,團隊借賽事契機,探索AI算法與BMC硬件管控的深度融合,驗證智能溫控方案可行性,推動BMC技術棧升級。
該項目聚焦單變量功耗智能管理,基于openbmc-OurBMC-24.12的phosphor-pid-control庫,集成一套由C++實現(xiàn)、以GBDT為預測核心、PPO為決策核心的自適應閉環(huán)控制系統(tǒng)。數(shù)據采集采用快速降溫與低功耗穩(wěn)態(tài)調控雙階段策略,實現(xiàn)從異常響應到節(jié)能運行的平滑過渡。系統(tǒng)通過溫度預測模型預判溫度趨勢,結合PPO強化學習生成風扇轉速建議,同時采用安全優(yōu)先的融合機制,最終轉速取AI建議值與超溫保障值的較大者,達成“安全兜底+智能節(jié)能”雙重目標,有效降低風扇功耗,提升數(shù)據中心PUE。
參賽過程中,團隊通過明確“環(huán)境搭建-傳感器適配-算法開發(fā)-部署測試”職責分工實現(xiàn)高效協(xié)作,攻克AI模型輕量化適配BMC嵌入式環(huán)境的難題。成員平衡工作與備賽時間,利用碎片化時段推進模型訓練與調試,深刻體會到技術落地需兼顧創(chuàng)新與實用,開源協(xié)作能夠加速技術迭代。
多元技術路徑并行,探索智能功耗管理更多可能
移動云硬件團隊精通BMC、BIOS及智能網卡固件開發(fā),作為OurBMC社區(qū)成員單位,團隊希望通過賽事了解行業(yè)前沿成果,分享技術積累,助力自身在功耗管理領域持續(xù)進階。
團隊獲獎作品為“基于BMC的智能功耗管理-SFC調速方案”,核心邏輯是通過BMC采集服務器工況信息,離線訓練工況識別與溫度預測模型并內置到系統(tǒng)中。服務器運行時,BMC先識別當前工況,再基于工況預測關鍵部件溫度變化,提前調節(jié)風扇轉速,在滿足溫度約束的前提下實現(xiàn)整體功率最低。
依托移動云在功耗管理的積累,團隊迅速組建技術互補型隊伍,經緊密協(xié)作明確核心原則:智能功耗管理不能影響B(tài)MC核心功能,模型輕量化與冗余措施必不可少。基于此,團隊攻克模型輕量化、預測準確度等難題,同時借鑒其他參賽隊伍的優(yōu)秀方案,為后續(xù)研究積累經驗。
百敖BMC團隊擁有多年BMC開發(fā)經驗,核心方案基于LSTM時序預測模型,構建智能化自適應溫控決策機制。模型通過分析溫度與風扇轉速的關聯(lián)趨勢,預測未來溫度變化并輸出匹配的轉速建議,同時設置融合決策模塊,對比LSTM預測結果與PID控制指令,動態(tài)權衡后下發(fā)最終轉速指令。
該方案實現(xiàn)從“被動響應式控溫”到“主動優(yōu)化式控溫”的轉變,在保障設備散熱需求的前提下,平滑能耗曲線,減少功耗波動,達成散熱與能效的最優(yōu)平衡。
面對BMC芯片計算能力有限、存儲空間不足的挑戰(zhàn),團隊通過固定晚間協(xié)作時段、高效異步溝通,將項目經驗轉化為比賽優(yōu)勢,深刻認識到技術權衡與工程落地能力比追求技術新穎更重要。
信工所算力基礎設施安全團隊從第一屆大賽起便持續(xù)關注OurBMC賽事,此前因學業(yè)遺憾錯過。本屆大賽功耗管理主題與團隊在服務器能效優(yōu)化的研究高度契合,相關成果已發(fā)表于頂級期刊。團隊希望借賽事展示方案,促進技術交流,助力國產BMC固件發(fā)展。
團隊作品HyperBMC,寓意超越傳統(tǒng)服務器管理范式,將BMC定位為智能管理引擎。方案核心是在BMC芯片部署深度學習模型,刻畫計算需求與散熱能力的平衡關系,結合主機CPU與BMC的帶內通信機制,協(xié)同調控風扇轉速與CPU頻率,實現(xiàn)精細化功耗管理,兼顧能效與性能穩(wěn)定性。
盡管團隊有技術積累,仍面臨兩大挑戰(zhàn):一是軟件版本適配難題,需將基于OpenBMC 2.8.0的成果遷移至OurBMC 24.12版本,攻克Linux內核升級與Yocto工具鏈變化等問題;二是嵌入式設備運行深度學習的挑戰(zhàn),團隊首次將智能決策與模型推理全流程部署在BMC端,充分挖掘嵌入式硬件性能。
聚焦輕量化與實用性,拓寬技術落地邊界
創(chuàng)芯無限團隊由管芯微與廣東芯培森聯(lián)合組建,擅長高性能算力芯片研發(fā)。管芯微是OurBMC社區(qū)早期成員,團隊因賽題與廣東赫曦原子智算中心建設高度契合,且希望借鑒社區(qū)經驗探索降PUE新路徑,第一時間報名參賽。
方案面向原子級科學計算高性能服務器(赫曦I架構),設計包含單變量與整機功耗管理的雙模塊系統(tǒng)。單變量模塊采集主板、CPU、GPU、APU的溫度與負載數(shù)據,采用ANN、CNN、LSTM-FNN等模型動態(tài)調節(jié)風扇轉速,實現(xiàn)快速降溫與低功耗溫控;整機模塊通過LSTM模型預測設備負載峰谷,動態(tài)調整CPU/GPU頻率與電壓,實現(xiàn)按需功耗分配。系統(tǒng)支持增量學習與強化學習優(yōu)化,搭配閾值控制兜底,保障性能的同時降低運行成本。
賽事錨定真實場景,涉及多類硬件且監(jiān)控參數(shù)龐雜,尤其是自研APU需經兩級代理獲取指標,整合分散監(jiān)控手段成為最大難點。團隊通過模塊化設計與精細化分工緊密協(xié)作,克服異地組隊、時間緊張等障礙,順利完成任務。
國科超算團隊專注嵌入式AI與BMC安全管理,致力于將輕量級AI模型應用于BMC產品。針對AI服務器功耗密度攀升、傳統(tǒng)管理方案失效的痛點,團隊希望在BMC中引入AI模塊,基于硬件溫度與OS負載實現(xiàn)精準功耗調控。
團隊作品核心是通過輕量化AI技術優(yōu)化風扇控制策略,采用四項關鍵機制:一是全場景數(shù)據采集,覆蓋空載、常規(guī)負載、高負載工況,確保數(shù)據完整;二是功耗建模與特征工程,基于硬件標定映射表構建功耗估算模型,簡化特征維度適配輕量化需求;三是分階段模型訓練,超溫階段用LSTM模型快速響應溫度趨勢,穩(wěn)溫階段用Q-Learning模型實現(xiàn)能效最優(yōu);四是輕量化部署,簡化推理鏈路,控制延遲低于10ms,設置異常兜底機制,保障系統(tǒng)穩(wěn)定。
參賽初期,AI與BMC工程師因技術思路分歧產生爭論,經帶隊老師協(xié)調敲定方案架構。團隊成員分工推進數(shù)據采集、模型訓練與部署測試,針對模型效果不佳、數(shù)據偏差等問題集中攻關。成員兼顧公司項目與備賽,最終收獲的成就感消解了所有疲憊。
第三屆開放原子大賽“基于BMC的整機功耗智能管理”賽題,以開源為紐帶匯聚各方智慧。各獲獎團隊探索出輕量化AI與BMC融合的多元技術路徑,為數(shù)據中心功耗管理提供可落地方案,踐行了開放包容、共創(chuàng)共贏的開源精神。未來,隨著技術落地與迭代,這些方案將持續(xù)推動綠色計算發(fā)展,為AI時代高效能數(shù)據中心建設注入新動能。
-
功耗
+關注
關注
1文章
844瀏覽量
33332 -
AI
+關注
關注
91文章
40820瀏覽量
302427 -
開發(fā)者
+關注
關注
1文章
778瀏覽量
18055
原文標題:從實驗室到賽場,大賽開發(fā)者如何用AI破解BMC功耗難題
文章出處:【微信號:開放原子,微信公眾號:開放原子】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
第三屆開放原子大賽基于BMC的整機功耗智能管理挑戰(zhàn)賽圓滿落幕
第三屆開放原子大賽開發(fā)者用代碼回答未來
第三屆開放原子大賽vivo藍河操作系統(tǒng)創(chuàng)新賽圓滿收官
潤和軟件助力第三屆開放原子大賽源師兄創(chuàng)意開發(fā)賽決賽圓滿落幕
【賽事公告】關于“第三屆開放原子大賽”賽程延長公告
第三屆開放原子大賽開發(fā)者如何用AI破解BMC功耗難題
評論