哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Arm Helium技術(shù)誕生的由來(lái) 為何不直接采用Neon?

瑞薩嵌入式小百科 ? 來(lái)源:Arm社區(qū) ? 2024-02-29 17:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

經(jīng)過(guò) Arm 研究團(tuán)隊(duì)多年的不懈努力,Arm 于 2019 年推出了適用于 Armv8?M 架構(gòu)的 Arm Cortex-M 矢量擴(kuò)展技術(shù) (MVE)——Arm Helium 技術(shù)。起初,當(dāng)我們面臨 Cortex?M 處理器數(shù)字信號(hào)處理 (DSP) 性能亟待提升的需求時(shí),我們首先想到的是采用現(xiàn)有的 Neon 技術(shù)。

然而,面對(duì)典型的 Cortex?M 應(yīng)用的面積限制條件下又需要支持多個(gè)性能的需求,意味著我們?nèi)孕鑿念^開(kāi)始。作為一種較輕的惰性氣體,以氦氣 (Helium) 作為研究項(xiàng)目的名稱(chēng)似乎再合適不過(guò)了。該研究項(xiàng)目主要針對(duì)中端處理器,旨在實(shí)現(xiàn)數(shù)據(jù)路徑寬度增加兩倍的情況下將性能提高四倍,而這正與氦氣的原子量 (4) 和原子序數(shù) (2) 不謀而合。

最終,在許多數(shù)字信號(hào)處理 (DSP) 和機(jī)器學(xué)習(xí) (ML) 內(nèi)核上,我們成功地實(shí)現(xiàn)了提升四倍的目標(biāo)。毋庸置疑,“Helium” 已經(jīng)深入人心,成為 Cortex-M 處理器系列 MVE 的品牌名。

要想打造具備良好 DSP 性能的處理器,主要關(guān)鍵在于可為其提供足夠的數(shù)據(jù)處理帶寬。在 Cortex?A 處理器上,128 位 Neon 負(fù)載可以輕松地從數(shù)據(jù)緩存中直接提取。

但是,Cortex?M 處理器通常沒(méi)有緩存,而是使用低延遲靜態(tài)隨機(jī)存取存儲(chǔ)器 (SRAM) 作為主內(nèi)存。對(duì)于許多系統(tǒng)來(lái)說(shuō),無(wú)法將 SRAM 路徑(通常只有 32 位)拓寬到 128 位,因此導(dǎo)致面臨內(nèi)存操作停滯長(zhǎng)達(dá)四個(gè)周期的可能性。同樣,乘加 (MAC) 指令中使用的乘法器需要很大的面積,在小型 Cortex?M 處理器上使用四個(gè) 32 位乘法器是不切實(shí)際的。

就面積限制層面而言,最小的 Cortex-M 處理器與能夠亂序執(zhí)行指令且功能強(qiáng)大的 Cortex?A 處理器的大小可能相差幾個(gè)數(shù)量級(jí)。因此,在創(chuàng)建 M 系列架構(gòu)時(shí),我們必須認(rèn)真考慮充分利用每一個(gè) gate。

為了充分利用現(xiàn)有硬件,我們需要確保高成本資源(如通往內(nèi)存的連接和乘法器)在每個(gè)周期都保持同時(shí)繁忙的狀態(tài)。在高性能處理器(如 Cortex?M7)上,可以通過(guò)矢量 MAC 雙發(fā)射來(lái)達(dá)成這一目標(biāo)。

此外,還有一個(gè)重要的目標(biāo),即在一系列不同的產(chǎn)品上提高 DSP 性能,而不僅局限于高端產(chǎn)品上。想要解決以上這些問(wèn)題,需要借鑒參考幾十年前的矢量鏈理念中的一些技術(shù)。

44d96f8c-d6ba-11ee-a297-92fbcf53809c.png

上圖顯示了在四個(gè)時(shí)鐘周期內(nèi)交替執(zhí)行的矢量負(fù)載 (VLDR) 和矢量 MAC (VMLA) 指令序列。這需要 128 位寬的內(nèi)存帶寬和四個(gè) MAC 塊,并且它們有一半時(shí)間處于空閑狀態(tài)??梢钥吹?,每條 128 位寬的指令被分成大小相等的四個(gè)片段,MVE 架構(gòu)稱(chēng)之為“節(jié)拍”(標(biāo)為 A 至 D)。無(wú)論元素大小如何,這些節(jié)拍始終是 32 位計(jì)算值,因此一個(gè)節(jié)拍可以包含一個(gè) 32 位 MAC,或四個(gè) 8 位 MAC。由于負(fù)載和 MAC 硬件是分開(kāi)的,這些節(jié)拍的執(zhí)行可以重疊,如下圖所示。

44eae46a-d6ba-11ee-a297-92fbcf53809c.png

即使 VLDR 加載的值被隨后的 VMLA 使用,指令仍可以重疊。這是因?yàn)?VMLA 的節(jié)拍 A 只依賴(lài)于上一個(gè)周期發(fā)生的 VLDR 的節(jié)拍 A,因此節(jié)拍 A 和 B 與節(jié)拍 C 和 D 便會(huì)自然重疊。在這個(gè)例子中,我們可以獲得與 128 位數(shù)據(jù)帶寬處理器相同的性能,但硬件數(shù)量只有后者的一半?!肮?jié)拍式”執(zhí)行的概念可以高效地實(shí)施多個(gè)性能點(diǎn)。例如,下圖顯示了只有 32 位數(shù)據(jù)帶寬的處理器如何處理相同的指令。這一點(diǎn)充滿(mǎn)吸引力,因?yàn)樗苁箚伟l(fā)射標(biāo)量處理器的性能翻倍(在八個(gè)周期內(nèi)對(duì)八個(gè) 32 位值加載和執(zhí)行 MAC),但卻沒(méi)有雙發(fā)射標(biāo)量指令那樣的面積和功耗需求。

44fdfff0-d6ba-11ee-a297-92fbcf53809c.png

MVE 支持?jǐn)U展到每周期四拍的實(shí)現(xiàn)方式,此時(shí)節(jié)拍式執(zhí)行將簡(jiǎn)化為更傳統(tǒng)的 SIMD 方法。這有助于在高性能處理器上保持可控的實(shí)現(xiàn)復(fù)雜度。

節(jié)拍式執(zhí)行聽(tīng)起來(lái)很不錯(cuò),但也會(huì)給架構(gòu)的其他部分帶來(lái)一些值得關(guān)注的挑戰(zhàn)。

由于多條部分執(zhí)行的指令可以同時(shí)運(yùn)行,因此中斷和故障處理可能會(huì)變得相當(dāng)復(fù)雜。例如,如果上圖中 VLDR 的節(jié)拍 D 出現(xiàn)故障,通常情況下,實(shí)施必須回滾 VMLA 的節(jié)拍 A 在上一周期對(duì)寄存器文件的寫(xiě)入。我們的理念是讓每個(gè) gate 都物盡其用,而在回滾的情況下緩沖舊數(shù)據(jù)值與這一理念相悖。

為了避免這種情況,處理器會(huì)針對(duì)異常情況存儲(chǔ)一個(gè)特殊的 ECI 值,用于指示已經(jīng)執(zhí)行了后續(xù)指令的哪些節(jié)拍。在異常返回時(shí),處理器便以此來(lái)確定要跳過(guò)哪些節(jié)拍。能夠快速跳出指令而無(wú)需回滾或等待指令完成,基于此保持 Cortex-M 具備的快速和確定性中斷處理能力。

如果指令會(huì)跨越節(jié)拍邊界,我們又會(huì)遇到時(shí)間跨越問(wèn)題。這種交叉行為通常出現(xiàn)在拓寬/縮窄運(yùn)算中。Neon 架構(gòu)中的 VMLAL 指令就是一個(gè)典型的例子,它可以將 32 位值矢量乘加到 64 位累加器中。遺憾的是,為了保持乘法器輸出的完整范圍,通常需要進(jìn)行這類(lèi)拓寬運(yùn)算。MVE 使用通用的 “R” 寄存器文件來(lái)處理累加器,從而解決了這一問(wèn)題。

此外,這樣還減少了對(duì)矢量寄存器的寄存壓力,使 MVE 只需使用 Neon 架構(gòu)中一半的矢量寄存器就能獲得良好的性能。在矢量架構(gòu)中,通常不會(huì)像 MVE 一樣廣泛使用通用的寄存器文件,因?yàn)榧拇嫫魑募c矢量單元相距甚遠(yuǎn)。在亂序執(zhí)行指令的高性能處理器上尤為如此,因?yàn)槲锢砭嚯x過(guò)大會(huì)限制性能。不過(guò),正因如此,我們恰恰能夠?qū)⒌湫?Cortex?M 處理器的較小規(guī)模特性轉(zhuǎn)化為我們的優(yōu)勢(shì)。

為確保重疊執(zhí)行達(dá)到良好的平衡且無(wú)停滯,每條指令都應(yīng)嚴(yán)格描述 128 位的工作,不能多也不能少。由此也會(huì)帶來(lái)一些挑戰(zhàn)。

憑借研究員們辛勤不懈的努力,以及充分參考架構(gòu)書(shū)籍中所涉的所有內(nèi)容,MVE 成功地將一些非??量痰墓摹⒚娣e和中斷延遲限制轉(zhuǎn)化為優(yōu)勢(shì)。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20321

    瀏覽量

    254450
  • 寄存器
    +關(guān)注

    關(guān)注

    31

    文章

    5616

    瀏覽量

    130347
  • sram
    +關(guān)注

    關(guān)注

    6

    文章

    828

    瀏覽量

    117690
  • 數(shù)字信號(hào)處理

    關(guān)注

    16

    文章

    580

    瀏覽量

    47878
  • 乘法器
    +關(guān)注

    關(guān)注

    9

    文章

    221

    瀏覽量

    38910
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    半導(dǎo)體制冷片為何不直接用于手機(jī)散熱?核心原因揭秘

    。效果立竿見(jiàn)影:插上電源,背面制冷,手機(jī)溫度直接從“燙手山芋”降到“冰鎮(zhèn)可樂(lè)”。于是,一個(gè)經(jīng)典的“靈魂拷問(wèn)”出現(xiàn)了:既然半導(dǎo)體制冷片這么厲害,為什么手機(jī)廠(chǎng)商不直接把它
    的頭像 發(fā)表于 04-08 13:34 ?86次閱讀
    半導(dǎo)體制冷片<b class='flag-5'>為何不</b><b class='flag-5'>直接</b>用于手機(jī)散熱?核心原因揭秘

    RZ/T2ME Group:高端32 & 64位MPU的技術(shù)剖析

    RZ/T2ME Group:高端32 64位MPU的技術(shù)剖析 在電子工程領(lǐng)域,處理器的性能和功能直接影響著產(chǎn)品的競(jìng)爭(zhēng)力。RZ/T2ME Group作為一款基于Arm的高端32 64位MPU,具備諸多
    的頭像 發(fā)表于 04-01 11:30 ?141次閱讀

    蜂窩通信技術(shù)硬核科普:入網(wǎng)、小區(qū)切換與載波聚合全解析

    本文將帶您探尋蜂窩通信背后的秘密:手機(jī)如何“找到”基站?移動(dòng)中網(wǎng)絡(luò)為何不中斷?載波聚合怎樣讓網(wǎng)速翻倍?
    的頭像 發(fā)表于 03-20 16:45 ?1921次閱讀

    電網(wǎng)頻率為何不能亂?一次調(diào)頻裝置的“維穩(wěn)”邏輯

    家電故障,大到電網(wǎng)崩潰,都會(huì)給生產(chǎn)生活帶來(lái)致命影響。而一次調(diào)頻裝置,正是守護(hù)這條“標(biāo)準(zhǔn)線(xiàn)”的核心力量,用毫秒級(jí)響應(yīng)筑牢電網(wǎng)頻率的“維穩(wěn)”防線(xiàn),詳細(xì)了解一次調(diào)頻裝置可咨詢(xún):1.3.7-5.0.0.4-6.2.0.0。今天就來(lái)拆解:電網(wǎng)頻率為何不能亂?一次調(diào)頻裝置的“維穩(wěn)”邏輯又是什么?
    的頭像 發(fā)表于 01-14 11:41 ?357次閱讀
    電網(wǎng)頻率<b class='flag-5'>為何不</b>能亂?一次調(diào)頻裝置的“維穩(wěn)”邏輯

    長(zhǎng)時(shí)儲(chǔ)能為何不長(zhǎng)時(shí)?

    150-200GW的電力,這相當(dāng)于整個(gè)法國(guó)電力消耗量的2倍左右。長(zhǎng)時(shí)儲(chǔ)能正是解決缺電問(wèn)題的重要技術(shù)方案,尤其針對(duì)AIDC的高能耗、高波動(dòng)、高綠電需求特性,長(zhǎng)時(shí)儲(chǔ)能更是目前的最佳解決方案。但目前長(zhǎng)時(shí)儲(chǔ)能技術(shù)仍需等待成熟,核心痛點(diǎn)之一便是:儲(chǔ)能系統(tǒng)的持續(xù)時(shí)長(zhǎng)
    的頭像 發(fā)表于 12-29 08:41 ?1w次閱讀

    熱重分析儀:為何在某些嚴(yán)格場(chǎng)景下不能直接用于炭黑含量測(cè)試?

    熱重分析儀:為何在某些嚴(yán)格場(chǎng)景下不能直接用于炭黑含量測(cè)試?熱重分析儀(TGA)作為材料熱分析的核心設(shè)備,理論上可通過(guò)程序控溫和氣氛切換區(qū)分聚合物、炭黑及灰分。但在工業(yè)質(zhì)量控制和標(biāo)準(zhǔn)符合性等嚴(yán)格場(chǎng)景中
    的頭像 發(fā)表于 12-10 16:54 ?480次閱讀
    熱重分析儀:<b class='flag-5'>為何</b>在某些嚴(yán)格場(chǎng)景下不能<b class='flag-5'>直接</b>用于炭黑含量測(cè)試?

    何不用olimex ARM-USB-TINY-H debugger實(shí)現(xiàn)調(diào)試?

    DDR的bsp文件,請(qǐng)問(wèn)github里的bsp文件是否兼容所有板子,而且我只有一根usb線(xiàn)可以接JTAG口,如何不用olimex ARM-USB-TINY-H debugger實(shí)現(xiàn)調(diào)試? fpga小白謝謝大家啦。
    發(fā)表于 11-10 08:15

    如何使用 Arm Helium 進(jìn)行顏色格式轉(zhuǎn)換和功能驗(yàn)證?

    使用 Arm Helium 進(jìn)行顏色格式轉(zhuǎn)換和功能驗(yàn)證
    發(fā)表于 08-19 06:52

    ARM技術(shù)的特點(diǎn)

    相同性能下功耗更低,因此成為智能手機(jī)、平板電腦、可穿戴設(shè)備等移動(dòng)終端的主流選擇。 授權(quán)模式 ARM 公司不直接生產(chǎn)芯片,而是通過(guò)知識(shí)產(chǎn)權(quán)(IP)授權(quán)模式,向廠(chǎng)商提供處理器架構(gòu)設(shè)計(jì)方案。廠(chǎng)商(如高通、華為
    發(fā)表于 08-18 13:31

    ARM入門(mén)學(xué)習(xí)方法分享

    集)處理器。 1985年第一個(gè)ARM原型在英國(guó)劍橋誕生。 公司的特點(diǎn)是只設(shè)計(jì)芯片,而不生產(chǎn)。它提供ARM技術(shù)知識(shí)產(chǎn)權(quán)(IP)核,將技術(shù)授權(quán)
    發(fā)表于 07-23 10:21

    智能時(shí)代的“導(dǎo)航大腦”:組合導(dǎo)航技術(shù)為何不可或缺?

    當(dāng)自動(dòng)駕駛精準(zhǔn)停入暴雨中的車(chē)位,無(wú)人機(jī)穿越城市峽谷鎖定目標(biāo),AUV在無(wú)衛(wèi)星信號(hào)的海底保持航向——這些場(chǎng)景的背后,是組合導(dǎo)航技術(shù)在默默支撐。它融合衛(wèi)星、慣性等多源數(shù)據(jù),重新定義了人類(lèi)對(duì)時(shí)空的掌控力。但為何它能在眾多導(dǎo)航方案中脫穎而出?
    的頭像 發(fā)表于 07-11 16:21 ?957次閱讀
    智能時(shí)代的“導(dǎo)航大腦”:組合導(dǎo)航<b class='flag-5'>技術(shù)</b><b class='flag-5'>為何不</b>可或缺?

    在IAR Embedded Workbench for Arm中使用Arm Cortex-R52 NEON

    隨著嵌入式系統(tǒng)變得越來(lái)越智能,對(duì)嵌入式處理器的要求也越來(lái)越高。為了更好應(yīng)對(duì)汽車(chē)、醫(yī)療和工業(yè)機(jī)器人等領(lǐng)域?qū)η度胧教幚砥鞯囊螅?b class='flag-5'>Arm推出了采用Armv8-R架構(gòu)的Cortex-R52。Cortex-R52相對(duì)之前的處理器引入了很多新的特性,其中一個(gè)就是
    的頭像 發(fā)表于 06-05 09:57 ?2035次閱讀
    在IAR Embedded Workbench for <b class='flag-5'>Arm</b>中使用<b class='flag-5'>Arm</b> Cortex-R52 <b class='flag-5'>NEON</b>

    RA8T1基于480MHz Arm Cortex-M85、搭載Helium和TrustZone的電機(jī)控制微控制器技術(shù)手冊(cè)

    RA8T1 系列 32 位微控制器 (MCU) 基于高達(dá) 480MHz 的 Arm^?^ Cortex-M85^?^ 內(nèi)核,采用 Helium? 技術(shù)和 TrustZone ^?^ ,
    的頭像 發(fā)表于 05-15 17:17 ?1165次閱讀
    RA8T1基于480MHz <b class='flag-5'>Arm</b> Cortex-M85、搭載<b class='flag-5'>Helium</b>和TrustZone的電機(jī)控制微控制器<b class='flag-5'>技術(shù)</b>手冊(cè)

    激光雷達(dá)在自動(dòng)駕駛中為何不可替代?

    109.6%。在很多車(chē)企不斷追求純視覺(jué)的當(dāng)下,為何激光雷達(dá)的銷(xiāo)量反而“逆勢(shì)”增長(zhǎng)?激光雷達(dá)在自動(dòng)駕駛中為何不可替代? 其實(shí)環(huán)境感知作為自動(dòng)駕駛的“元感官”,在保證車(chē)輛安全、提高決策效率方面發(fā)揮著至關(guān)重要的作用。而在眾多感知手段中,LiDAR以其精準(zhǔn)的距離測(cè)
    的頭像 發(fā)表于 05-11 09:15 ?1424次閱讀
    激光雷達(dá)在自動(dòng)駕駛中<b class='flag-5'>為何不</b>可替代?

    Arm精銳超級(jí)分辨率技術(shù)助力提升游戲性能

    去年夏天,Arm 推出了 Arm 精銳超級(jí)分辨率技術(shù) (Arm Accuracy Super Resolution, Arm ASR) 的早
    的頭像 發(fā)表于 04-21 13:52 ?1293次閱讀
    <b class='flag-5'>Arm</b>精銳超級(jí)分辨率<b class='flag-5'>技術(shù)</b>助力提升游戲性能
    磐安县| 广德县| 离岛区| 康马县| 京山县| 新巴尔虎右旗| 莱州市| 宝清县| 昆明市| 郎溪县| 宜良县| 正镶白旗| 米泉市| 嘉善县| 天柱县| 宣化县| 南丰县| 汉源县| 长治市| 金门县| 营山县| 青铜峡市| 怀宁县| 田林县| 藁城市| 靖宇县| 当阳市| 永川市| 同仁县| 房产| 呼玛县| 全南县| 中牟县| 南岸区| 呈贡县| 凤翔县| 台北市| 高邑县| 肃宁县| 九台市| 阿巴嘎旗|