国产精品久久91视频,国产熟女三区

神經(jīng)處理單元（NPU）是一種專為人工智能（AI）神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)任務(wù)設(shè)計的專用處理器，隨著技術(shù)從卷積神經(jīng)網(wǎng)絡(luò)（CNN）演進(jìn)至Transformer模型，再到如今的生成式人工智能（GenAI）模型，NPU也需要隨之演進(jìn)。GenAI（尤其是大語言模型LLM）的參數(shù)量與日俱增，對帶寬的需求更是永無止境，正促使嵌入式AI硬件中所用的數(shù)據(jù)格式發(fā)生轉(zhuǎn)變，包括向低精度和浮點(diǎn)格式發(fā)展的趨勢，例如新興的OCP微縮放（MX）數(shù)據(jù)類型。

卷積神經(jīng)網(wǎng)絡(luò)及后續(xù)演進(jìn)

早在2012年，卷積神經(jīng)網(wǎng)絡(luò)（CNN）便已超越數(shù)字信號處理解決方案，成為圖像特征分析、目標(biāo)檢測等視覺處理任務(wù)的默認(rèn)標(biāo)準(zhǔn)。CNN算法的訓(xùn)練與推理最初采用32位浮點(diǎn)（FP32）數(shù)據(jù)類型，但沒過多久，推理引擎就找到了優(yōu)化CNN引擎功耗與面積的方法，對于面向邊緣設(shè)備的應(yīng)用而言尤為重要。在精度損失極小的前提下，8位整數(shù)（INT8）成為高吞吐量應(yīng)用場景下CNN算法的標(biāo)準(zhǔn)格式。當(dāng)時占據(jù)主導(dǎo)地位的AI框架TensorFlow為INT8提供了堅實可靠的支持，不過使用INT8數(shù)據(jù)類型需要進(jìn)行訓(xùn)練后量化與校準(zhǔn)。

2017年，Transformer神經(jīng)網(wǎng)絡(luò)問世（Google發(fā)表了《Attention Is All You Need》論文）。由于引入了注意力機(jī)制，相較于進(jìn)行圖像分類的CNN，Transformer對INT8量化更為敏感。16位浮點(diǎn)（FP16）和腦浮點(diǎn)（BF16）由此成為Transformer常用的替代數(shù)據(jù)類型。

Transformer開啟了當(dāng)前的GenAI模型時代，但GenAI模型的參數(shù)規(guī)模比CNN和許多視覺Transformer高出幾個數(shù)量級。比如，典型的CNN算法可能需要2500萬個參數(shù)，而ChatGPT則需要1750億個參數(shù)。參數(shù)量的大幅增加導(dǎo)致NPU的計算需求與內(nèi)存帶寬需求之間出現(xiàn)失衡。正如圖1所示，面向AI神經(jīng)網(wǎng)絡(luò)工作負(fù)載的GPU性能增長速度，遠(yuǎn)快于互連帶寬能力的提升速度。

▲圖1：AI性能（TOPS）的增長速度，超過了互連帶寬（GB/s）的增長速度。

GPU通常用于AI訓(xùn)練和服務(wù)器工作負(fù)載，而NPU則是AI推理的首選AI處理器；在推理場景中，低功耗和小面積是核心訴求。隨著NPU開始處理GenAI工作負(fù)載，其計算能力與接口帶寬之間的不匹配問題愈發(fā)棘手。用于邊緣設(shè)備的NPU通常配備LPDDR5內(nèi)存接口，與服務(wù)器應(yīng)用中常用的HBM接口相比，這種接口的帶寬存在明顯局限。

NPU可通過多種方式降低帶寬需求：

NPU內(nèi)置硬件與軟件壓縮機(jī)制，以此有效削減帶寬消耗。

GenAI模型正逐步演進(jìn)。例如，DeepSeek和Llama 4均采用了一種名為“專家混合”（MOE）的技術(shù)。這類模型的參數(shù)規(guī)模依然龐大，但MOE技術(shù)能讓任意時刻加載的參數(shù)集更為精簡，從而提升帶寬效率。

降低GenAI模型參數(shù)的精度是減少帶寬的常用策略。大多數(shù)NPU原本針對INT8數(shù)據(jù)和系數(shù)設(shè)計，但若參數(shù)能采用更低精度的格式（如INT4或FP4），數(shù)據(jù)便可實現(xiàn)壓縮存儲，帶寬由此翻倍提升。更小的數(shù)據(jù)類型還能同時減少內(nèi)存占用和數(shù)據(jù)加載延遲。

針對窄精度數(shù)據(jù)類型的新標(biāo)準(zhǔn)應(yīng)運(yùn)而生

2023年，OCP微縮放格式（MX）規(guī)范發(fā)布，其中引入了三種浮點(diǎn)格式和一種整數(shù)格式（MXFP8、NXFP6、MXFP4、MXINT8），MXFP8格式源自O(shè)CP 8位浮點(diǎn)規(guī)范（OFP8），詳見圖2。

在圖2中，四種符合MX規(guī)范的數(shù)據(jù)類型均采用8位指數(shù)并在由32個數(shù)字組成的塊中共享，既能減少內(nèi)存占用，又能提升硬件性能與效率，進(jìn)而降低開銷和運(yùn)營成本。MX數(shù)據(jù)類型的另一優(yōu)勢在于，在離線編譯過程中，F(xiàn)P32或FP16的權(quán)重與激活值可“直接轉(zhuǎn)換”（壓縮/量化）為MX浮點(diǎn)格式。

▲圖2：OCP MX規(guī)范v1.0中的微縮放（MX）數(shù)據(jù)類型。

GenAI模型之所以需要更小的數(shù)據(jù)類型，源于NPU架構(gòu)的需求變化。由于窄位寬數(shù)據(jù)格式有助于降低GenAI模型的計算與存儲成本，NPU必須支持這些新的格式。

圖3展示了新思科技面向具備AI能力的SoC所提供的處理器IP產(chǎn)品。NPX6 NPU IP提供高效、可擴(kuò)展的AI推理引擎；VPX DSP IP是一款超長指令字（VLIW）/單指令多數(shù)據(jù)（SIMD）處理器系列，適用于廣泛多樣的信號處理應(yīng)用，除了能對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)處理和后處理外，還可處理自定義神經(jīng)網(wǎng)絡(luò)層。

▲圖3：NPX6 NPU IP和VPX DSP IP為神經(jīng)網(wǎng)絡(luò)處理、前瞻性適配及預(yù)處理/后處理提供集成解決方案。

新思科技的NPX IP和VPX IP系列現(xiàn)已新增AI數(shù)據(jù)壓縮選項，與浮點(diǎn)單元（FPU）選項結(jié)合后，可為任何ARC NPX神經(jīng)處理單元IP處理器或VPX數(shù)字信號處理器IP處理器增加對INT4、BF16、OCP-FP8及OCP-MX數(shù)據(jù)壓縮的支持。新增的AI數(shù)據(jù)壓縮選項完全符合OCP規(guī)范，包括《OCP 8位浮點(diǎn)規(guī)范（OFP8）》（1.0版，2023年6月20日批準(zhǔn)）與《OCP微縮放格式（MX）規(guī)范》（1.0版，2023年9月）。

AI數(shù)據(jù)壓縮選項可在DMA中快速執(zhí)行數(shù)據(jù)格式轉(zhuǎn)換：從系統(tǒng)內(nèi)存移入內(nèi)部存儲器時對數(shù)據(jù)解壓縮，從內(nèi)部存儲器移至系統(tǒng)內(nèi)存時對數(shù)據(jù)壓縮。以NPX6為例，MXFP6格式會轉(zhuǎn)換為FP16格式以用于內(nèi)部處理。內(nèi)部計算采用FP16并不會限制整體性能，因為在NPX6 NPU IP上運(yùn)行的LLM不受計算能力制約，瓶頸在于帶寬。下方圖4展示了增強(qiáng)型NPX6 NPU IP和VPX DSP IP所支持的數(shù)據(jù)類型，其中多項數(shù)據(jù)類型在DMA中得到支持。表格中還列出了每種數(shù)據(jù)類型所對應(yīng)的內(nèi)部數(shù)據(jù)路徑。

▲圖4：增強(qiáng)型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP系列所支持的數(shù)據(jù)類型。

由于VPX與NPX支持相同的數(shù)據(jù)類型，采用這些新格式在處理器之間傳輸參數(shù)或激活值時，操作簡便易行。將這些數(shù)據(jù)類型集成到DMA中，有助于減少帶寬占用和內(nèi)存開銷。在DMA中支持多種數(shù)據(jù)類型的另一優(yōu)勢在于，處理器IP能夠直接與轉(zhuǎn)換器連接。例如，10位模數(shù)轉(zhuǎn)換器可連接至NPX或VPX，硬件會自動將其映射為內(nèi)部數(shù)據(jù)類型，省去了軟件轉(zhuǎn)換的步驟。

結(jié)語

GenAI模型在不斷演進(jìn)的過程中，所遵循的發(fā)展軌跡很可能與CNN模型類似。在達(dá)到令人滿意的精度與效率水平之前，模型的參數(shù)規(guī)模會持續(xù)激增；而后，研究重心將轉(zhuǎn)向優(yōu)化環(huán)節(jié)，使模型更適配邊緣設(shè)備應(yīng)用。目前，增強(qiáng)型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP已正式推出，可供關(guān)注AI（包括GenAI）能力的SoC開發(fā)者選用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4840

瀏覽量
108091
AI

AI

+關(guān)注

關(guān)注
91

文章
40820

瀏覽量
302427
新思科技

新思科技

+關(guān)注

關(guān)注
5

文章
976

瀏覽量
52978

原文標(biāo)題：4bit破解邊緣AI部署難題！新思科技賦能“大模型”跑進(jìn)“小設(shè)備”

文章出處：【微信號：Synopsys_CN，微信公眾號：新思科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

新思科技如何破解邊緣AI部署難題

評論