哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

寒武紀(jì)產(chǎn)品與眾智FlagOS全面適配

寒武紀(jì)開發(fā)者 ? 來源:寒武紀(jì)開發(fā)者 ? 2025-11-17 09:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大模型的快速發(fā)展正推動AI算力需求進(jìn)入爆發(fā)式增長階段。與此同時,不同應(yīng)用場景又對AI芯片提出了多樣化的挑戰(zhàn):例如在大模型Prefill場景,對算力要求更高,對內(nèi)存帶寬的要求則遠(yuǎn)低于Decode場景;大模型訓(xùn)練場景則不僅需要高算力與大容量內(nèi)存,還需要更高的互連帶寬與大規(guī)模集群組網(wǎng)能力。顯然,單一的芯片架構(gòu)已難以滿足多元化的業(yè)務(wù)需求,為部署不同類型的業(yè)務(wù),大模型應(yīng)用廠商往往需要引入多種不同架構(gòu)的AI芯片。因此造成的跨芯片架構(gòu)間業(yè)務(wù)代碼遷移與維護(hù)工作,尤其是算子遷移工作,往往耗時數(shù)月,成為業(yè)務(wù)遷移流程中的主要瓶頸。

針對行業(yè)痛點(diǎn),北京智源人工智能研究院依托AI算法優(yōu)化、芯片架構(gòu)分析、編譯器技術(shù)和分布式通信領(lǐng)域的多年積累,聯(lián)手眾多社區(qū)伙伴共同啟動了眾智FlagOS項(xiàng)目,旨在通過統(tǒng)一軟件層解耦A(yù)I模型與異構(gòu)硬件,打破不同架構(gòu)芯片之間的軟件生態(tài)壁壘,為芯片硬件與上層AI應(yīng)用之間搭建統(tǒng)一且高效銜接的橋梁,系統(tǒng)性解決“適配難、調(diào)優(yōu)慢、協(xié)同弱”三大行業(yè)難題,實(shí)現(xiàn)“一次開發(fā),處處運(yùn)行”,致力于為AI產(chǎn)業(yè)打造開放協(xié)同的創(chuàng)新技術(shù)底座。

從2024年初起,寒武紀(jì)和智源研究院開始進(jìn)行FlagGems(基于Triton的高性能通用AI算子庫)的聯(lián)合開發(fā)工作,后續(xù)進(jìn)一步拓展到FlagTree(統(tǒng)一多后端的增強(qiáng)版Triton編譯器)、FlagCX(統(tǒng)一通信庫)、FlagScale(并行訓(xùn)推一體框架)等組件。至2025年9月,寒武紀(jì)已經(jīng)完成對FlagOS下各組件的適配和優(yōu)化工作。隨著智源研究院在“AICC2025暨首屆FlagOS開放計(jì)算開發(fā)者大會”發(fā)布了FlagOS v1.5,寒武紀(jì)產(chǎn)品可通過眾智大模型全棧生態(tài)基座支撐更廣泛的生態(tài)伙伴。

寒武紀(jì)與FlagOS的適配與優(yōu)化主要集中在算子、編譯器、分布式通信庫和并行框架組件等方面,以下將逐一介紹。

FlagGems

FlagGems是基于Triton語言實(shí)現(xiàn)的大模型算子庫,目標(biāo)是在多硬件后端上提供高性能的算子實(shí)現(xiàn),并通過基準(zhǔn)測試與自適應(yīng)調(diào)優(yōu),持續(xù)優(yōu)化性能表現(xiàn)。項(xiàng)目提供面向不同芯片廠商的后端適配機(jī)制、可配置的調(diào)優(yōu)參數(shù)體系,以及完整的文檔、測試與基準(zhǔn)評測入口。

作為FlagOS生態(tài)的核心算子組件庫,F(xiàn)lagGems以“高復(fù)用性、極致性能、架構(gòu)通用性”為設(shè)計(jì)理念,通過標(biāo)準(zhǔn)化算子模塊體系,大幅降低芯片廠商的算子開發(fā)與適配成本。作為首批深度參與FlagGems生態(tài)建設(shè)的芯片廠商,寒武紀(jì)全程投入算子適配與性能調(diào)優(yōu)驗(yàn)證工作,目前已完成206/209個核心算子的全功能支持,平均性能提升達(dá)1.9倍,其中絕大部分算子性能達(dá)到原生算子的80%以上。寒武紀(jì)將持續(xù)探索性能優(yōu)化邊界,針對低效能的凹點(diǎn)算子展開專項(xiàng)攻堅(jiān),進(jìn)一步消除性能瓶頸,實(shí)現(xiàn)全算子高性能覆蓋。

20531166-bfc2-11f0-8c8f-92fbcf53809c.png

FlagTree

FlagTree是一個面向多種AI芯片的開源統(tǒng)一編譯器,致力于為多元化的AI硬件生態(tài)提供統(tǒng)一的編譯、適配和優(yōu)化能力。項(xiàng)目以Triton生態(tài)為基礎(chǔ),兼容現(xiàn)有主流AI芯片后端,統(tǒng)一代碼倉庫,并快速實(shí)現(xiàn)單倉庫多后端支持,為上游模型開發(fā)者與下游芯片廠商的協(xié)作與創(chuàng)新提供了極大便利,可大幅提升開發(fā)效率,促進(jìn)了Triton生態(tài)的繁榮和演進(jìn)。

在寒武紀(jì)與FlagTree的深度合作中,寒武紀(jì)Triton已成功合并至FlagTree主代碼倉庫?;贔lagTree編譯器與FlagGems算子庫,寒武紀(jì)針對QWen3-8B大語言模型開展全鏈路適配驗(yàn)證:將模型中的37個核心算子(涵蓋矩陣乘法matmul、層歸一化layer_norm、注意力機(jī)制attention等關(guān)鍵計(jì)算單元)替換為FlagGems提供的Triton優(yōu)化算子,在寒武紀(jì)芯片上進(jìn)行推理性能測試,整網(wǎng)推理吞吐性能達(dá)到原生算子版本的80%,完全滿足實(shí)時推理場景需求。

這一成果不僅驗(yàn)證了FlagTree+FlagGems技術(shù)棧的工程穩(wěn)定性,更彰顯了Triton框架兩大核心優(yōu)勢:顯著提升開發(fā)效率,算子迭代周期從傳統(tǒng)的2周大幅縮短至3天;跨架構(gòu)兼容性,為前沿LLM模型的快速工程化開辟了高效技術(shù)路徑。

FlagCX

FlagCX是一款面向大規(guī)模AI訓(xùn)練的通信中間件,通過對底層硬件差異進(jìn)行抽象,使開發(fā)者能夠在異構(gòu)硬件環(huán)境中無縫開展分布式訓(xùn)練,從而有效提升資源利用效率和訓(xùn)練性能。

FlagCX開源后,寒武紀(jì)即開始積極參與共建。從FlagCX v0.1.0版本開始,寒武紀(jì)就實(shí)現(xiàn)了絕大部分通信原語的支持,如今已完成對allreduce、reducescatter、allgather、send、recv等通信操作的全面支持。這種支持并非簡單的接口對接,而是通過FlagCX統(tǒng)一適配器模塊,實(shí)現(xiàn)了FlagCX與寒武紀(jì)原生CNCL通信庫的高效、深度集成。

FlagCX通過其核心層(FlagCX Core)處理異構(gòu)通信,同時通過適配器無縫兼容包括寒武紀(jì)CNCL在內(nèi)的各大廠商同構(gòu)通信庫。這意味著,當(dāng)用戶在純寒武紀(jì)MLU集群上進(jìn)行同構(gòu)訓(xùn)練時,F(xiàn)lagCX能夠直接調(diào)用經(jīng)過深度優(yōu)化的CNCL庫,確保通信性能與直接使用CNCL原生庫基本持平,幾乎無性能損耗。這種深度集成保障寒武紀(jì)用戶在享受FlagCX統(tǒng)一接口便利性的同時,同樣可以獲得原生性能體驗(yàn)。

20ba9a48-bfc2-11f0-8c8f-92fbcf53809c.png

在寒武紀(jì)MLU與其他AI芯片的混合環(huán)境中,F(xiàn)lagCX成功保障混合訓(xùn)練的模型精度與純MLU獨(dú)立訓(xùn)練結(jié)果完全一致。更重要的是,在如此復(fù)雜的異構(gòu)環(huán)境下,平均單卡吞吐量仍能達(dá)到MLU獨(dú)立訓(xùn)練的99%以上。性能測試表明寒武紀(jì)MLU與FlagCX的結(jié)合,可以做到精度無損且性能和原生通信庫持平的水平,為用戶使用異構(gòu)算力資源進(jìn)行大模型訓(xùn)推提供了可靠的技術(shù)基礎(chǔ)。

2123cf90-bfc2-11f0-8c8f-92fbcf53809c.jpg

FlagScale

FlagScale是智源人工智能研究院主導(dǎo)開發(fā)的大模型全生命周期工具集,是FlagOS生態(tài)的核心組成部分,致力于構(gòu)建覆蓋模型開發(fā)、分布式訓(xùn)練與推理部署的統(tǒng)一技術(shù)體系。框架融合了Megatron-LM、vLLM、SGLang、Verl等主流開源項(xiàng)目,為大模型提供從訓(xùn)練到推理的一站式解決方案。

在與FlagScale的深度合作中,寒武紀(jì)基于MLU硬件平臺完成了對Megatron-LM訓(xùn)練框架和vLLM推理框架的全面適配與優(yōu)化。在訓(xùn)練環(huán)節(jié),MLU平臺已充分支持智源Megatron體系下的多類主流模型,包括Llama系列、Aquila2系列、Qwen3系列等,并覆蓋從模型并行到混合精度的完整訓(xùn)練流程;在推理環(huán)節(jié),MLU平臺對vLLM框架實(shí)現(xiàn)了完備的兼容支持,可高效運(yùn)行社區(qū)開源的多種大語言模型推理任務(wù)。

在完成框架級適配后,結(jié)合MLU架構(gòu)特性,寒武紀(jì)還圍繞通信、算子和內(nèi)存調(diào)度進(jìn)行了多層次性能優(yōu)化。通過集成自研CNCL通信庫、CNNL高性能算子庫及混合精度算子調(diào)度機(jī)制,可顯著提升分布式訓(xùn)練的通信效率與算力利用率;在vLLM推理中,針對 Attention、LayerNorm、GEMM等核心算子進(jìn)行了指令級與內(nèi)存訪問模式優(yōu)化,為后續(xù)性能提升奠定基礎(chǔ)。

憑借在FlagScale生態(tài)中的深度集成與架構(gòu)適配經(jīng)驗(yàn),寒武紀(jì)MLU平臺具備了對未來FlagScale開發(fā)或開放的新模型進(jìn)行快速、即時適配的能力。無論是Megatron-LM體系下的新一代訓(xùn)練模型,還是vLLM推理端的最新開源模型,MLU都能夠在框架演進(jìn)中實(shí)現(xiàn)同步更新與性能優(yōu)化,保持良好的生態(tài)兼容性和持續(xù)演進(jìn)能力。

FlagScale的全面適配與持續(xù)優(yōu)化,使寒武紀(jì)MLU在大模型訓(xùn)練與推理全鏈路中具備了統(tǒng)一、高效、可擴(kuò)展的框架級生態(tài)能力。這一進(jìn)展不僅加速了國產(chǎn)AI硬件在開源大模型生態(tài)中的融合,也為大模型的工程化和高性能部署提供了有力支撐。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40820

    瀏覽量

    302427
  • 寒武紀(jì)
    +關(guān)注

    關(guān)注

    13

    文章

    218

    瀏覽量

    75047
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3738

    瀏覽量

    5263

原文標(biāo)題:寒武紀(jì)擁抱眾智FlagOS生態(tài)

文章出處:【微信號:Cambricon_Developer,微信公眾號:寒武紀(jì)開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    中國AI企業(yè)50強(qiáng)發(fā)布!寒武紀(jì)位居榜首,AI芯片公司包攬前三

    主營業(yè)務(wù)及商業(yè)化不足的企業(yè),上榜門檻高達(dá)95億元,較2024年提升了35億元;前十名門檻更是飆升至730億元,是2024年的3倍;企業(yè)平均價值達(dá)到540億元,同比增長140%。 ? 在眾多上榜企業(yè)中,AI芯片企業(yè)表現(xiàn)尤為搶眼,包攬了榜單前三名,分別是寒武紀(jì)、摩爾線程和沐
    的頭像 發(fā)表于 01-21 09:08 ?7157次閱讀
    中國AI企業(yè)50強(qiáng)發(fā)布!<b class='flag-5'>寒武紀(jì)</b>位居榜首,AI芯片公司包攬前三

    寒武紀(jì)“炸裂”財(cái)報(bào)!一季度營收增長40倍,積極備貨應(yīng)對“爆單”?

    電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)寒武紀(jì),交出一份炸裂財(cái)報(bào)!在4月18日,寒武紀(jì)公布了2024年年報(bào)和2025年一季度報(bào)告,其中2024年全年?duì)I收11.74億元,同比增長65.56%;虧損4.52億元
    的頭像 發(fā)表于 04-22 09:07 ?3048次閱讀
    <b class='flag-5'>寒武紀(jì)</b>“炸裂”財(cái)報(bào)!一季度營收增長40倍,積極備貨應(yīng)對“爆單”?

    AI芯片企業(yè)賺瘋了?寒武紀(jì)營收暴漲453.21%,沐曦推理GPU銷量大增866.02%

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近期,多家AI芯片企業(yè)發(fā)布2025年年度報(bào)告,包括寒武紀(jì)、海光信息、沐曦股份、天數(shù)智芯等,多家企業(yè)實(shí)現(xiàn)營業(yè)收入大幅增長。如寒武紀(jì)營業(yè)收入同比激增453.21%;沐曦股份
    的頭像 發(fā)表于 04-11 07:31 ?9542次閱讀

    寒武紀(jì)去年?duì)I收增長超400% 凈利潤20.59億同比扭虧 寒武紀(jì)首個盈利年度

    AI芯片廠商寒武紀(jì)傳來好消息,寒武紀(jì)去年?duì)I收增長超400% ;據(jù)寒武紀(jì)2025年年報(bào)顯示;25年?duì)I收達(dá)到64.97億元,同比增加453.21%,凈利潤20.59億元,同比扭虧。該公司迎來上市以來首個
    的頭像 發(fā)表于 03-13 11:49 ?1304次閱讀

    寒武紀(jì)實(shí)現(xiàn)對GLM-5的Day 0適配

    2026年2月11日,寒武紀(jì)已基于 vLLM 推理框架同步實(shí)現(xiàn)對智譜最新開源旗艦?zāi)P??GLM-5 的適配。寒武紀(jì)一直高度重視大模型軟件生態(tài)建設(shè),借助于成熟的自研 Neuware 軟件生態(tài)和長期
    的頭像 發(fā)表于 02-12 15:07 ?857次閱讀

    寒武紀(jì):預(yù)計(jì)2025年?duì)I收增長超400%,凈利潤扭虧為盈

    電子發(fā)燒友網(wǎng)報(bào)道 1月30日,寒武紀(jì)發(fā)布公告稱,經(jīng)公司財(cái)務(wù)部門初步測算,預(yù)計(jì)2025年年度營業(yè)收入將達(dá)到600,000.00萬元至700,000.00萬元之間。與上年同期相比,這一數(shù)字將增加
    的頭像 發(fā)表于 01-30 18:15 ?9968次閱讀
    <b class='flag-5'>寒武紀(jì)</b>:預(yù)計(jì)2025年?duì)I收增長超400%,凈利潤扭虧為盈

    寒武紀(jì)引領(lǐng)AI芯片軟件新生態(tài)

    寒武紀(jì)成立的初衷是為“人工智能的大爆發(fā)”提供底層算力支持,不僅要硬件算力強(qiáng)大,更要軟件通用、易用。多年來,寒武紀(jì)堅(jiān)持訓(xùn)練推理融合、統(tǒng)一的基礎(chǔ)軟件平臺研發(fā)策略,構(gòu)建從自研芯片架構(gòu)到高性能軟件平臺的完整
    的頭像 發(fā)表于 11-06 11:23 ?1534次閱讀
    <b class='flag-5'>寒武紀(jì)</b>引領(lǐng)AI芯片軟件新生態(tài)

    商湯科技與寒武紀(jì)達(dá)成戰(zhàn)略合作

    近日,商湯科技與中科寒武紀(jì)科技股份有限公司(以下簡稱“寒武紀(jì)”)簽署面向新發(fā)展階段的戰(zhàn)略合作協(xié)議,重點(diǎn)推進(jìn)軟硬件的聯(lián)合優(yōu)化,并共同構(gòu)建開放共贏的產(chǎn)業(yè)生態(tài)。
    的頭像 發(fā)表于 10-15 17:54 ?876次閱讀

    寒武紀(jì)成功適配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武紀(jì)已同步實(shí)現(xiàn)對深度求索公司最新模型DeepSeek-V3.2-Exp的適配,并開源大模型推理引擎vLLM-MLU源代碼。代碼地址和測試步驟見文末,開發(fā)者可以在寒武紀(jì)軟硬件平臺上第一時間體驗(yàn)DeepSee
    的頭像 發(fā)表于 10-11 17:14 ?1838次閱讀
    <b class='flag-5'>寒武紀(jì)</b>成功<b class='flag-5'>適配</b>DeepSeek-V3.2-Exp模型

    寒武紀(jì)股價破1200大關(guān)創(chuàng)歷史新高 DeepSeek適配國產(chǎn)芯片成直接原因

    今日,寒武紀(jì)股價突破1200元!8月單月漲幅100%、市值站上5200億,成為繼貴州茅臺之后的A股史上第二只千元股。 01 半導(dǎo)體芯片股集體爆發(fā) 寒武紀(jì)是中國AI芯片設(shè)計(jì)領(lǐng)軍者,其國內(nèi)云端訓(xùn)練、邊緣
    的頭像 發(fā)表于 08-26 13:54 ?1150次閱讀
    <b class='flag-5'>寒武紀(jì)</b>股價破1200大關(guān)創(chuàng)歷史新高 DeepSeek<b class='flag-5'>適配</b>國產(chǎn)芯片成直接原因

    寒武紀(jì)85后創(chuàng)始人陳天石身價超1500億

    芯片生產(chǎn)和DeepSeek適配國產(chǎn)芯片的利好刺激下,加之還有國外投行高盛宣布將寒武紀(jì)-U目標(biāo)價上調(diào)50%至1835元,AI芯片龍頭寒武紀(jì)股價持續(xù)大漲。目前寒武紀(jì)的市值超5200億。而陳
    的頭像 發(fā)表于 08-26 10:37 ?7080次閱讀

    寒武紀(jì)聯(lián)手階躍星辰成立模芯生態(tài)創(chuàng)新聯(lián)盟

    近日,階躍星辰發(fā)布了新一代基礎(chǔ)大模型Step 3。Step 3兼顧智能與效率,通過模型和系統(tǒng)聯(lián)合創(chuàng)新,實(shí)現(xiàn)了行業(yè)前列的推理解碼效率,將于7月31日面向全球企業(yè)和開發(fā)者開源。目前,寒武紀(jì)已初步實(shí)現(xiàn)對Step 3的支持。
    的頭像 發(fā)表于 07-31 11:26 ?1263次閱讀

    寒武紀(jì)基于思元370芯片的MLU370-X8 智能加速卡產(chǎn)品手冊詳解

    MLU370-X8智能加速卡是全面升級的數(shù)據(jù)中心訓(xùn)推一體AI加速卡,基于寒武紀(jì)全新一代思元370芯片,接口為PCIe 4.0 X16,是全高全長雙寬(FHFL-Dual-Slot)的標(biāo)準(zhǔn)PCIe加速卡,適用于業(yè)內(nèi)最新的CPU平臺,可輕松搭載于最先進(jìn)的人工智能服務(wù)器,快速實(shí)
    的頭像 發(fā)表于 04-24 17:57 ?6002次閱讀
    <b class='flag-5'>寒武紀(jì)</b>基于思元370芯片的MLU370-X8 智能加速卡<b class='flag-5'>產(chǎn)品</b>手冊詳解

    寒武紀(jì)思元370芯片參數(shù)特性詳解

    寒武紀(jì)首次采用chiplet技術(shù)將2顆AI計(jì)算芯粒封裝為一顆AI芯片,通過不同芯粒組合規(guī)格多樣化的產(chǎn)品,為用戶提供適用不同場景的高性價比AI芯片。
    的頭像 發(fā)表于 04-24 17:49 ?5849次閱讀
    <b class='flag-5'>寒武紀(jì)</b>思元370芯片參數(shù)特性詳解

    寒武紀(jì)一季度營收大漲4230% 凈利潤3.55億 扭虧為盈

    4月18日晚間,國產(chǎn)AI芯片龍頭寒武紀(jì)發(fā)布了財(cái)務(wù)報(bào)告,包括有2025年第一季度財(cái)務(wù)報(bào)告和2024年年度財(cái)務(wù)報(bào)告。 在2025年第一季度,寒武紀(jì)營收達(dá)到11.11億,同比增長高達(dá)4230.22
    的頭像 發(fā)表于 04-19 14:15 ?1939次閱讀
    博爱县| 鱼台县| 连城县| 长顺县| 新龙县| 建阳市| 平安县| 微山县| 房产| 广灵县| 保定市| 酒泉市| 耒阳市| 高阳县| 清新县| 开鲁县| 正安县| 清徐县| 上林县| 托克逊县| 麻江县| 竹溪县| 河曲县| 沐川县| 木兰县| 上蔡县| 桃园市| 微山县| 邵东县| 塘沽区| 海伦市| 康定县| 彰化市| 汤原县| 揭西县| 田东县| 台南市| 万全县| 抚顺市| 阿荣旗| 土默特左旗|