哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新思科技如何破解邊緣AI部署難題

新思科技 ? 來源:新思科技 ? 2025-08-21 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經(jīng)處理單元(NPU)是一種專為人工智能AI神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)任務(wù)設(shè)計的專用處理器,隨著技術(shù)從卷積神經(jīng)網(wǎng)絡(luò)(CNN)演進(jìn)至Transformer模型,再到如今的生成式人工智能(GenAI)模型,NPU也需要隨之演進(jìn)。GenAI(尤其是大語言模型LLM)的參數(shù)量與日俱增,對帶寬的需求更是永無止境,正促使嵌入式AI硬件中所用的數(shù)據(jù)格式發(fā)生轉(zhuǎn)變,包括向低精度和浮點(diǎn)格式發(fā)展的趨勢,例如新興的OCP微縮放(MX)數(shù)據(jù)類型。

卷積神經(jīng)網(wǎng)絡(luò)及后續(xù)演進(jìn)

早在2012年,卷積神經(jīng)網(wǎng)絡(luò)(CNN)便已超越數(shù)字信號處理解決方案,成為圖像特征分析、目標(biāo)檢測等視覺處理任務(wù)的默認(rèn)標(biāo)準(zhǔn)。CNN算法的訓(xùn)練與推理最初采用32位浮點(diǎn)(FP32)數(shù)據(jù)類型,但沒過多久,推理引擎就找到了優(yōu)化CNN引擎功耗與面積的方法,對于面向邊緣設(shè)備的應(yīng)用而言尤為重要。在精度損失極小的前提下,8位整數(shù)(INT8)成為高吞吐量應(yīng)用場景下CNN算法的標(biāo)準(zhǔn)格式。當(dāng)時占據(jù)主導(dǎo)地位的AI框架TensorFlow為INT8提供了堅實可靠的支持,不過使用INT8數(shù)據(jù)類型需要進(jìn)行訓(xùn)練后量化與校準(zhǔn)。

2017年,Transformer神經(jīng)網(wǎng)絡(luò)問世(Google發(fā)表了《Attention Is All You Need》論文)。由于引入了注意力機(jī)制,相較于進(jìn)行圖像分類的CNN,Transformer對INT8量化更為敏感。16位浮點(diǎn)(FP16)和腦浮點(diǎn)(BF16)由此成為Transformer常用的替代數(shù)據(jù)類型。

Transformer開啟了當(dāng)前的GenAI模型時代,但GenAI模型的參數(shù)規(guī)模比CNN和許多視覺Transformer高出幾個數(shù)量級。比如,典型的CNN算法可能需要2500萬個參數(shù),而ChatGPT則需要1750億個參數(shù)。參數(shù)量的大幅增加導(dǎo)致NPU的計算需求與內(nèi)存帶寬需求之間出現(xiàn)失衡。正如圖1所示,面向AI神經(jīng)網(wǎng)絡(luò)工作負(fù)載的GPU性能增長速度,遠(yuǎn)快于互連帶寬能力的提升速度。

cb27aee0-7dae-11f0-a18e-92fbcf53809c.png

▲圖1:AI性能(TOPS)的增長速度,超過了互連帶寬(GB/s)的增長速度。

GPU通常用于AI訓(xùn)練和服務(wù)器工作負(fù)載,而NPU則是AI推理的首選AI處理器;在推理場景中,低功耗和小面積是核心訴求。隨著NPU開始處理GenAI工作負(fù)載,其計算能力與接口帶寬之間的不匹配問題愈發(fā)棘手。用于邊緣設(shè)備的NPU通常配備LPDDR5內(nèi)存接口,與服務(wù)器應(yīng)用中常用的HBM接口相比,這種接口的帶寬存在明顯局限。

NPU可通過多種方式降低帶寬需求:

NPU內(nèi)置硬件與軟件壓縮機(jī)制,以此有效削減帶寬消耗。

GenAI模型正逐步演進(jìn)。例如,DeepSeek和Llama 4均采用了一種名為“專家混合”(MOE)的技術(shù)。這類模型的參數(shù)規(guī)模依然龐大,但MOE技術(shù)能讓任意時刻加載的參數(shù)集更為精簡,從而提升帶寬效率。

降低GenAI模型參數(shù)的精度是減少帶寬的常用策略。大多數(shù)NPU原本針對INT8數(shù)據(jù)和系數(shù)設(shè)計,但若參數(shù)能采用更低精度的格式(如INT4或FP4),數(shù)據(jù)便可實現(xiàn)壓縮存儲,帶寬由此翻倍提升。更小的數(shù)據(jù)類型還能同時減少內(nèi)存占用和數(shù)據(jù)加載延遲。

針對窄精度數(shù)據(jù)類型的新標(biāo)準(zhǔn)應(yīng)運(yùn)而生

2023年,OCP微縮放格式(MX)規(guī)范發(fā)布,其中引入了三種浮點(diǎn)格式和一種整數(shù)格式(MXFP8、NXFP6、MXFP4、MXINT8),MXFP8格式源自O(shè)CP 8位浮點(diǎn)規(guī)范(OFP8),詳見圖2。

在圖2中,四種符合MX規(guī)范的數(shù)據(jù)類型均采用8位指數(shù)并在由32個數(shù)字組成的塊中共享,既能減少內(nèi)存占用,又能提升硬件性能與效率,進(jìn)而降低開銷和運(yùn)營成本。MX數(shù)據(jù)類型的另一優(yōu)勢在于,在離線編譯過程中,F(xiàn)P32或FP16的權(quán)重與激活值可“直接轉(zhuǎn)換”(壓縮/量化)為MX浮點(diǎn)格式。

cb4a2678-7dae-11f0-a18e-92fbcf53809c.png

▲圖2:OCP MX規(guī)范v1.0中的微縮放(MX)數(shù)據(jù)類型。

GenAI模型之所以需要更小的數(shù)據(jù)類型,源于NPU架構(gòu)的需求變化。由于窄位寬數(shù)據(jù)格式有助于降低GenAI模型的計算與存儲成本,NPU必須支持這些新的格式。

圖3展示了新思科技面向具備AI能力的SoC所提供的處理器IP產(chǎn)品。NPX6 NPU IP提供高效、可擴(kuò)展的AI推理引擎;VPX DSP IP是一款超長指令字(VLIW)/單指令多數(shù)據(jù)(SIMD)處理器系列,適用于廣泛多樣的信號處理應(yīng)用,除了能對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)處理和后處理外,還可處理自定義神經(jīng)網(wǎng)絡(luò)層。

cb5ad5cc-7dae-11f0-a18e-92fbcf53809c.png

▲圖3:NPX6 NPU IP和VPX DSP IP為神經(jīng)網(wǎng)絡(luò)處理、前瞻性適配及預(yù)處理/后處理提供集成解決方案。

新思科技的NPX IP和VPX IP系列現(xiàn)已新增AI數(shù)據(jù)壓縮選項,與浮點(diǎn)單元(FPU)選項結(jié)合后,可為任何ARC NPX神經(jīng)處理單元IP處理器或VPX數(shù)字信號處理器IP處理器增加對INT4、BF16、OCP-FP8及OCP-MX數(shù)據(jù)壓縮的支持。新增的AI數(shù)據(jù)壓縮選項完全符合OCP規(guī)范,包括《OCP 8位浮點(diǎn)規(guī)范(OFP8)》(1.0版,2023年6月20日批準(zhǔn))與《OCP微縮放格式(MX)規(guī)范》(1.0版,2023年9月)。

AI數(shù)據(jù)壓縮選項可在DMA中快速執(zhí)行數(shù)據(jù)格式轉(zhuǎn)換:從系統(tǒng)內(nèi)存移入內(nèi)部存儲器時對數(shù)據(jù)解壓縮,從內(nèi)部存儲器移至系統(tǒng)內(nèi)存時對數(shù)據(jù)壓縮。以NPX6為例,MXFP6格式會轉(zhuǎn)換為FP16格式以用于內(nèi)部處理。內(nèi)部計算采用FP16并不會限制整體性能,因為在NPX6 NPU IP上運(yùn)行的LLM不受計算能力制約,瓶頸在于帶寬。下方圖4展示了增強(qiáng)型NPX6 NPU IP和VPX DSP IP所支持的數(shù)據(jù)類型,其中多項數(shù)據(jù)類型在DMA中得到支持。表格中還列出了每種數(shù)據(jù)類型所對應(yīng)的內(nèi)部數(shù)據(jù)路徑。

cb709e70-7dae-11f0-a18e-92fbcf53809c.png

▲圖4:增強(qiáng)型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP系列所支持的數(shù)據(jù)類型。

由于VPX與NPX支持相同的數(shù)據(jù)類型,采用這些新格式在處理器之間傳輸參數(shù)或激活值時,操作簡便易行。將這些數(shù)據(jù)類型集成到DMA中,有助于減少帶寬占用和內(nèi)存開銷。在DMA中支持多種數(shù)據(jù)類型的另一優(yōu)勢在于,處理器IP能夠直接與轉(zhuǎn)換器連接。例如,10位模數(shù)轉(zhuǎn)換器可連接至NPX或VPX,硬件會自動將其映射為內(nèi)部數(shù)據(jù)類型,省去了軟件轉(zhuǎn)換的步驟。

結(jié)語

GenAI模型在不斷演進(jìn)的過程中,所遵循的發(fā)展軌跡很可能與CNN模型類似。在達(dá)到令人滿意的精度與效率水平之前,模型的參數(shù)規(guī)模會持續(xù)激增;而后,研究重心將轉(zhuǎn)向優(yōu)化環(huán)節(jié),使模型更適配邊緣設(shè)備應(yīng)用。目前,增強(qiáng)型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP已正式推出,可供關(guān)注AI(包括GenAI)能力的SoC開發(fā)者選用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4840

    瀏覽量

    108091
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40820

    瀏覽量

    302427
  • 新思科技
    +關(guān)注

    關(guān)注

    5

    文章

    976

    瀏覽量

    52978

原文標(biāo)題:4bit破解邊緣AI部署難題!新思科技賦能“大模型”跑進(jìn)“小設(shè)備”

文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    邊緣AI應(yīng)用越來越普遍,AI模型在邊緣端如何部署?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)在人工智能時代,越來越多的AI應(yīng)用需要從云端擴(kuò)展到邊緣端,比如智能耳機(jī)、智能攝像機(jī)、智能手環(huán)、物流機(jī)器人等,在邊緣部署
    的頭像 發(fā)表于 07-04 00:11 ?4616次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>應(yīng)用越來越普遍,<b class='flag-5'>AI</b>模型在<b class='flag-5'>邊緣</b>端如何<b class='flag-5'>部署</b>?

    英特爾發(fā)布全新邊緣計算平臺,解決AI邊緣落地難題

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)AI越來越多地在邊緣側(cè)部署。Gartner最新預(yù)測數(shù)據(jù)顯示,到2025年,50%以上的企業(yè)管理數(shù)據(jù)將在數(shù)據(jù)中心或云之外創(chuàng)建和處理。隨著AI為自動化帶來更多
    的頭像 發(fā)表于 03-12 09:06 ?5702次閱讀
    英特爾發(fā)布全新<b class='flag-5'>邊緣</b>計算平臺,解決<b class='flag-5'>AI</b><b class='flag-5'>邊緣</b>落地<b class='flag-5'>難題</b>

    邊緣AI實現(xiàn)的核心環(huán)節(jié):硬件選擇和模型部署

    電子發(fā)燒友網(wǎng)綜合報道 邊緣AI的實現(xiàn)原理是將人工智能算法和模型部署到靠近數(shù)據(jù)源的邊緣設(shè)備上,使這些設(shè)備能夠在本地進(jìn)行數(shù)據(jù)處理、分析和決策,而無需將數(shù)據(jù)傳輸?shù)竭h(yuǎn)程的云端服務(wù)器。
    發(fā)表于 05-26 07:09 ?1563次閱讀

    Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

    海思SD3403邊緣計算AI框架,提供了一套開放式AI訓(xùn)練產(chǎn)品工具包,解決客戶低成本AI系統(tǒng),針對差異化AI 應(yīng)用場景,自己采集樣本數(shù)據(jù),進(jìn)
    發(fā)表于 04-28 11:05

    STM32F769是否可以部署邊緣AI

    STM32F769是否可以部署邊緣AI
    發(fā)表于 06-17 06:44

    EdgeBoard FZ5 邊緣AI計算盒及計算卡

    ` 隨著應(yīng)用場景的多樣化,利用人工智能技術(shù)在邊緣側(cè)部署一系列創(chuàng)新應(yīng)用解決方案,對企業(yè)傳統(tǒng)的業(yè)務(wù)形態(tài)進(jìn)行升級,加速業(yè)務(wù)增長,增強(qiáng)競爭優(yōu)勢,起著至關(guān)重要的作用。 在市場需求和產(chǎn)業(yè)趨勢的推動下,米爾
    發(fā)表于 08-31 14:12

    網(wǎng)絡(luò)邊緣實施AI的原因

    AI推向邊緣的影響通過在邊緣運(yùn)行ML模型可以使哪些具體的AI項目更容易運(yùn)行?
    發(fā)表于 02-23 06:21

    嵌入式邊緣AI應(yīng)用開發(fā)指南

    部署到TI硬件上。然而,將深度學(xué)習(xí)模型部署到硬件加速器上只是難題的冰山一角。為幫助您快速構(gòu)建高效的邊緣AI應(yīng)用,TI采用了GStreamer
    發(fā)表于 11-03 06:53

    思科技發(fā)布業(yè)界首款全棧式AI驅(qū)動型EDA解決方案Synopsys.ai

    )、IBM、聯(lián)發(fā)科(MediaTek)和瑞薩電子(Renesas)均對新思科技的AI驅(qū)動型EDA設(shè)計策略表示支持,并已利用Synopsys.ai解決方案取得顯著成果:瑞薩電子在減少功能覆蓋盲區(qū)方面實現(xiàn)
    發(fā)表于 04-03 16:03

    如何通過Astraea一鍵化部署邊緣AI服務(wù)?

    前言 為什么說邊緣計算帶來了數(shù)據(jù)、計算的根本變化? 邊緣AI邊緣計算最重要的應(yīng)用之一,它的挑戰(zhàn)是什么? 一個用于邊緣計算場景的新型
    的頭像 發(fā)表于 11-03 11:26 ?3584次閱讀

    思科技宣布與SiMa.ai開展合作

    思科技(Synopsys)近日宣布與SiMa.ai開展合作,將其機(jī)器學(xué)習(xí)推理技術(shù)大規(guī)模引入嵌入式邊緣設(shè)備。此次合作,SiMa.ai將采用新思科
    的頭像 發(fā)表于 11-27 14:41 ?2542次閱讀

    邊緣計算前景很美,安全難題如何破解?

    在大規(guī)模商用以及快速發(fā)展的AI芯片技術(shù)雙重加持下,邊緣計算在未來十年將迎來爆炸性增長。根據(jù)Grand View Research的數(shù)據(jù),2019年邊緣計算所帶來的市場價值約為25億美元。到2027年
    發(fā)表于 01-27 09:40 ?7次下載
    <b class='flag-5'>邊緣</b>計算前景很美,安全<b class='flag-5'>難題</b>如何<b class='flag-5'>破解</b>?

    AI邊緣計算是什么意思?邊緣ai是什么?AI邊緣計算應(yīng)用

    AI邊緣計算是什么意思?邊緣ai是什么?AI邊緣計算應(yīng)用? 隨著人工智能技術(shù)的不斷發(fā)展,
    的頭像 發(fā)表于 08-24 15:18 ?3934次閱讀

    中興通訊AiCube:破解AI模型部署難題

    ,成為制約技術(shù)價值釋放的新痛點(diǎn)。 異構(gòu)算力適配困難、算力資源利用率低以及數(shù)據(jù)安全風(fēng)險高等問題,讓許多企業(yè)在AI技術(shù)的實際應(yīng)用中遇到了瓶頸。這些問題不僅增加了部署的難度,還可能導(dǎo)致資源的浪費(fèi)和潛在的安全威脅。 為了破解這一
    的頭像 發(fā)表于 02-13 09:11 ?1105次閱讀

    邊緣AI實現(xiàn)的核心環(huán)節(jié):硬件選擇和模型部署

    邊緣AI的實現(xiàn)原理是將人工智能算法和模型部署到靠近數(shù)據(jù)源的邊緣設(shè)備上,使這些設(shè)備能夠在本地進(jìn)行數(shù)據(jù)處理、分析和決策,而無需將數(shù)據(jù)傳輸?shù)竭h(yuǎn)程的云端服務(wù)器。
    的頭像 發(fā)表于 06-19 12:19 ?1632次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>實現(xiàn)的核心環(huán)節(jié):硬件選擇和模型<b class='flag-5'>部署</b>
    什邡市| 合阳县| 阜康市| 凤阳县| 鸡东县| 台东市| 南岸区| 泉州市| 镇巴县| 胶州市| 台湾省| 淳化县| 旌德县| 申扎县| 江山市| 玛多县| 海门市| 纳雍县| 西丰县| 神农架林区| 茶陵县| 兴海县| 吉安市| 尼木县| 乌海市| 宝丰县| 陇川县| 五台县| 峡江县| 全州县| 庆阳市| 香港| 翁牛特旗| 仁布县| 宁武县| 建德市| 平邑县| 大新县| 玉门市| 民丰县| 棋牌|