哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI推理CPU當?shù)溃珹rm驅動高效引擎

晶芯觀察 ? 來源:電子發(fā)燒友 ? 作者:黃晶晶 ? 2024-11-13 14:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI的訓練和推理共同鑄就了其無與倫比的處理能力。在AI訓練方面,GPU因其出色的并行計算能力贏得了業(yè)界的青睞,成為了當前AI大模型最熱門的芯片;而在 AI 推理方面,具備卓越通用性和靈活性的CPU本應發(fā)揮關鍵作用,但其重要性卻常常被忽視。

“對于那些希望將大語言模型(LLM)集成到產(chǎn)品和服務中的企業(yè)和開發(fā)者來說,CPU 通常是首選”。Arm 中國區(qū)業(yè)務全球副總裁鄒挺在接受采訪時表示。為了適應AI推理的應用落地,CPU有針對性的優(yōu)化必不可少,Arm Neoverse平臺通過增加如SVE2指令集使得AI 推理具有更好的性能和效率。

wKgZoWc0SKeAXZrNAAChYI9hOdg816.jpg
Arm中國區(qū)業(yè)務全球副總裁 鄒挺



CPU對于AI推理的重要性

CPU長期以來廣泛應用于傳統(tǒng)的AI和機器學習任務,其通用性和靈活性使其在部署AI推理時更具優(yōu)勢。鄒挺表示,在AI場景落地初期,專用AI處理器的開發(fā)周期較長,因此,高能效CPU 自然成為了推理的核心;隨著 AI 技術的深入發(fā)展和應用場景的多樣化,定制化專用 AI 加速器應運而生。在這一過程中,高能效的CPU不僅作為核心控制單元,還與 GPU、NPU、FPGAASIC 等異構單元協(xié)同工作,管理和調度系統(tǒng)資源,成為AI推理的“靈魂捕手”。

相比于單純依賴 GPU 的高成本和高功耗,CPU在推理過程中具有更高的能效比。CPU 的設計更適合處理多任務負載,并且無需復雜的冷卻和電力解決方案。這使得CPU在大規(guī)模部署中能夠以更低的成本運行,特別是在資源受限的環(huán)境中,其低功耗的特性尤為顯著。這對于那些需要長期、穩(wěn)定運行的 AI 應用來說,是一個可持續(xù)且經(jīng)濟高效的選擇。

Arm Neoverse平臺集成SVE2技術,對AI計算至關重要

Arm Neoverse CPU在 AI 推理中展現(xiàn)了其獨特優(yōu)勢,這一點要從其技術底層開始剖析。

鄒挺分析,Armv9架構已經(jīng)引入 Arm Neoverse 平臺,在Armv9架構中Arm 集成SVE2(可擴展向量擴展)指令集。SVE2 作為一種可擴展的向量處理技術,允許處理器同時執(zhí)行多個數(shù)據(jù)元素操作,從而提供了更高效的向量計算和AI 硬件加速。

SVE2 在AI推理中的一個關鍵應用是矩陣運算。矩陣乘法是許多AI任務中的常見計算,而 SVE2 向量指令可以同時處理多個數(shù)據(jù)元素,使矩陣乘法能夠以向量化的方式進行,從而提高了計算效率。

例如,SVE2 中的 FMMLA 指令可以實現(xiàn) FP32 格式下的矩陣乘法,BFMMLA 指令能夠在 BF16 格式下進行高效運算,而 UMMLA、SMMLA 等指令則優(yōu)化了 INT8 格式下的矩陣運算。通過這些指令和硬件加速功能,AI 推理在Arm架構上能夠實現(xiàn)更高效的矩陣運算和更優(yōu)的能效比。

這種技術不僅提升了 AI 推理中矢量運算的效率,尤其是在深度學習和自然語言處理(NLP)等核心任務上,加快了推理速度,并在能效表現(xiàn)上進行了優(yōu)化。通過 SVE2 的支持,Arm Neoverse CPU 可以在邊緣計算和資源受限的環(huán)境中高效運行,從而減少對 GPU 和其他硬件資源的依賴。

基于Arm NeoverseCPU顯著提升推理性能

亞馬遜云服務(AWS)、微軟、Google和甲骨文 (Oracle) 等全球最大的 AI 頭部云服務提供商們都通過 Arm Neoverse 進行通用計算和基于 CPU 的 AI 推理與訓練。Arm Neoverse 不僅為這些頭部云服務商提供了定制芯片的靈活性,還優(yōu)化了嚴苛的工作負載,確保在每瓦功率的使用上實現(xiàn)更高的計算效率。

例如,基于Arm架構的AWS Graviton,與其他同行業(yè)產(chǎn)品相比,Amazon Sagemaker 的 AI 推理性能提高了 25%,Web 應用程序提高了 30%,數(shù)據(jù)庫提高了 40%,效率則提升了 60%。基于 Arm 架構的 Google Cloud Axion,與傳統(tǒng)架構相比,其性能和能效分別提高了 50% 和 60%,可為基于 CPU 的 AI 推理和訓練、YouTube、Google 地球等服務提供支持。

基于 Arm Neoverse N2 架構的阿里云倚天 710,在運行 Llama 3 和 Qwen1.5 等業(yè)內標準大語言模型時展現(xiàn)了極高的靈活性和擴展性。通過與 Arm 軟件團隊的緊密合作,阿里云對 llama.cpp 中的 int4 和 int8 GEMM 內核進行了優(yōu)化,特別是利用了 SMMLA 指令來提高計算效率。在 ecs.g8y.16xlarge 實例上(配置64個 vCPU 和 256GB 內存),多次實驗結果顯示,每秒處理的詞元數(shù)量增加了 2.7 倍。此外,詞元生成的吞吐量在處理更大批次數(shù)據(jù)時最多提高了 1.9 倍。詞元生成的延遲對于交互式 LLM 部署非常關鍵。實驗表明,阿里云倚天 710 在單次操作和批量處理場景下均能保持 100 毫秒以內的延遲目標,這符合人們每秒 5-10 個單詞的典型閱讀速度。因此,這一架構非常適合常規(guī)體量的 LLM 部署。

與其他服務器 CPU 的對比中,阿里云倚天 710 的優(yōu)勢顯著。在與 Intel Icelake 和 Sapphire Rapids 的對比中,倚天 710 在提示詞處理性能上提升了 3.2 倍,詞元生成性能則提升了 2.2 倍。這表明,倚天 710 不僅在處理性能上有明顯優(yōu)勢,其成本效益也極具吸引力,成為了 LLM 推理應用中的理想選擇。

小模型的推理優(yōu)化

越來越多的企業(yè)將開發(fā)重心轉向小語言模型(Small Language Models, SLM)或小型 LLM,小模型尤其是在處理對話、翻譯、摘要、分類等任務時,效率更高且耗能更少。與需要高昂的基礎設施成本和復雜漫長的開發(fā)部署周期的大語言模型相比,這些模型在訓練過程中消耗的電力也相對較低,適合更靈活、可定制的應用場景。

鄒挺分析,在提升模型效率方面,量化技術是一個重要的優(yōu)化手段。通過將神經(jīng)網(wǎng)絡的權重降低到更低的精度,量化技術顯著減少了模型的內存和計算需求。比如,將16位浮點數(shù)壓縮為4位整數(shù),可以大幅降低內存占用和計算成本,同時對精度的影響微乎其微。

以 Llama 2 模型為例,原本擁有 70 億參數(shù)的模型在量化后,從 13.5 GB 縮減至 3.9 GB;130 億參數(shù)的版本從 26.1 GB 縮減至7.3 GB;而700 億參數(shù)模型則從 138 GB 減少至 40.7 GB。這些優(yōu)化顯著提升了模型的運行速度,同時降低了在 CPU 上運行的成本。

結合高效的 Arm CPU 技術,這些優(yōu)化讓輕量級模型可以直接在移動設備上運行,不僅提升了性能,還實現(xiàn)了數(shù)據(jù)隱私保護和用戶體驗的優(yōu)化。

他進一步表示,在針對 FunASR 語音識別模型的優(yōu)化方面,Arm 充分利用了Armv9 架構中的 SVE2 指令、BF16 數(shù)據(jù)類型等特性,并引入了動態(tài)量化技術,使得 FunASR 模型在 Arm Neoverse 服務器上實現(xiàn)了高效運行。FunASR 是阿里巴巴達摩院開發(fā)的開源大模型,基于 Paraformer 架構,具備語音識別、語音端點檢測、標點恢復、語言模型、說話人驗證和分離等多種功能。

SVE2 指令集在Arm架構處理器中,對 INT8 數(shù)據(jù)的并行處理非常高效,一次指令周期可以完成 16 個 INT8 的乘累加操作。因此,在對模型執(zhí)行效率有更高要求的場景下,可以采用 INT8 動態(tài)量化來提升效率。此外,INT8 和 BF16 的數(shù)據(jù)格式組合也進一步優(yōu)化了模型計算效率,在保持精度的前提下,實現(xiàn)了 1. 5 倍的效率提升。這樣的優(yōu)化確保了 FunASR 等大模型在 Arm 架構上的高效運行,使其能夠在特定領域 AI 應用中發(fā)揮重要作用。

不斷優(yōu)化AI推理的性能與能耗

當前全球數(shù)據(jù)中心每年消耗約460太瓦時的電力,隨著AI技術和應用的快速發(fā)展,這一數(shù)字預計在2030年將增長至當前的三倍。目前,數(shù)據(jù)中心中約有85%的AI負載用于推理任務,這些任務涵蓋了眾多應用和設備。

Arm Neoverse的架構不僅提升了云端計算的性能和能效,還為大規(guī)模云服務提供商和數(shù)據(jù)中心優(yōu)化了TCO。例如,基于Arm Neoverse 平臺的 AWS Graviton3 在AI推理過程中節(jié)約了50%的成本。

據(jù)悉,Arm在Neoverse的產(chǎn)品線目前有V、N、E三個平臺系列,其中Neoverse V與Neoverse N又進一步推出計算子系統(tǒng)CSS產(chǎn)品,為想快速推出產(chǎn)品,掌握人工智能機遇的合作伙伴,縮減產(chǎn)品開發(fā)時間,加速產(chǎn)品上市進程。

迄今為止,合作伙伴基于Arm架構的芯片出貨量已達到 3,000 億顆,這一龐大的市場基礎使Arm能夠支持各種AI 技術領域的發(fā)展,并成為推動AI創(chuàng)新的重要平臺。AI 推理正從集中在云端擴展到更多的邊緣應用,以實現(xiàn)更廣泛的覆蓋和更高效的響應。

鄒挺說道: “從移動設備到 AI 領域,高性能和出色能效始終是Arm的DNA。Arm 將繼續(xù)推動 AI 的技術變革,帶來更高效、更可持續(xù)的計算解決方案,確保我們的技術能夠支持合作伙伴在 AI 時代的多樣化需求,同時推動 AI 技術在更多領域的廣泛落地和普及?!?br />

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9581

    瀏覽量

    393361
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Arm AGI CPU加速新一代基礎設施建設

    近期,Arm 推出 Arm AGI CPU,一款由 Arm 自主設計、面向人工智能 (AI) 數(shù)據(jù)中心的
    的頭像 發(fā)表于 04-09 15:55 ?227次閱讀

    Arm首款自研AGI CPU盡顯Arm能效之優(yōu)!單線程釋放強大性能,同等機架塞更多CPU功耗還更低

    最近,Arm 發(fā)布首款自研的數(shù)據(jù)中心 CPUArm AGI CPU,專為代理式 AI 基礎設施打造,可實現(xiàn)單機架性能達到 x86 平臺的兩
    的頭像 發(fā)表于 03-27 09:12 ?193次閱讀
    <b class='flag-5'>Arm</b>首款自研AGI <b class='flag-5'>CPU</b>盡顯<b class='flag-5'>Arm</b>能效之優(yōu)!單線程釋放強大性能,同等機架塞更多<b class='flag-5'>CPU</b>功耗還更低

    新品 | AI Pyramid AI Pyramid-Pro,面向本地推理與智能交互的高性能AI PC

    AIPyramid是一款金字塔形狀的高性能AIPC,專為本地AI推理與邊緣智能應用而生。內置AxeraAX8850SoC,集成八核Cortex-A55處理器與24TOPS@INT8NPU,輕松應對
    的頭像 發(fā)表于 02-06 17:24 ?3844次閱讀
    新品 | <b class='flag-5'>AI</b> Pyramid <b class='flag-5'>AI</b> Pyramid-Pro,面向本地<b class='flag-5'>推理</b>與智能交互的高性能<b class='flag-5'>AI</b> PC

    使用NORDIC AI的好處

    × 在 CPU 上運行時可快 10×、更省電,平均模型體積 <5 KB。[Edge AI 軟件頁] Axon NPU 對同一 TensorFlow Lite 模型:* 推理速度最高可比
    發(fā)表于 01-31 23:16

    思必馳場景化推理AI重塑智能交互

    AI技術從“感知”走向“認知”的今天,推理能力正成為推動人工智能向更高階躍遷的核心引擎
    的頭像 發(fā)表于 12-12 11:31 ?831次閱讀

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1425次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    的工作嗎? 從書中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的還是知道的,F(xiàn)PGA屬于AI芯片這個真不知道,以為它是數(shù)字芯片的,不曉得屬于
    發(fā)表于 09-12 16:07

    華為亮相2025金融AI推理應用落地與發(fā)展論壇

    近日,2025金融AI推理應用落地與發(fā)展論壇在上海舉行。中國銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰博士發(fā)布AI
    的頭像 發(fā)表于 08-15 09:45 ?1365次閱讀

    超強性能工控機工業(yè)領域的動力引擎驅動高效生產(chǎn)

    超高分辨率/高速機器視覺、復雜AI模型實時推理、大規(guī)模實時數(shù)據(jù)分析與決策、超精密多軸同步運動控制,通過硬件優(yōu)化、實時操作系統(tǒng)/擴展,實現(xiàn)納秒級精度控制,滿足半導體制造、高端測試等極端要求,不間斷運行
    的頭像 發(fā)表于 08-14 16:36 ?446次閱讀
    超強性能工控機工業(yè)領域的動力<b class='flag-5'>引擎</b><b class='flag-5'>驅動</b><b class='flag-5'>高效</b>生產(chǎn)

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    引領AI時代網(wǎng)絡變革:睿海光電的核心競爭力 在AI時代,數(shù)據(jù)中心正經(jīng)歷從傳統(tǒng)架構向AI工廠與AI云的轉型。AI工廠依賴超大規(guī)模GPU集群
    發(fā)表于 08-13 19:01

    Arm KleidiAI與XNNPack集成實現(xiàn)AI性能提升

    Arm KleidiAI 首次集成到 XNNPack 已過去整整一年。KleidiAI 是一款高度優(yōu)化的軟件庫,旨在加速 Arm CPU 上的人工智能 (AI)
    的頭像 發(fā)表于 08-08 15:19 ?3099次閱讀
    <b class='flag-5'>Arm</b> KleidiAI與XNNPack集成實現(xiàn)<b class='flag-5'>AI</b>性能提升

    積算科技上線赤兔推理引擎服務,創(chuàng)新解鎖FP8大模型算力

    北京2025年7月30日 /美通社/ -- 近日,北京積算科技有限公司(以下簡稱"積算科技")宣布其算力服務平臺上線赤兔推理引擎。積算科技PowerFul-AI應用開發(fā)平臺與赤兔合作,打造高性價比
    的頭像 發(fā)表于 07-30 21:44 ?1016次閱讀

    信而泰×DeepSeek:AI推理引擎驅動網(wǎng)絡智能診斷邁向 “自愈”時代

    ,還是工業(yè)協(xié)議時序混亂,均可完整還原端到端業(yè)務會話鏈條,為智能分析提供堅實基礎。2.AI根因定位:推理引擎驅動秒級精準診斷l(xiāng) 知識圖譜驅動
    發(fā)表于 07-16 15:29

    Arm與微軟合作加速邊緣設備上的AI體驗

    隨著人工智能 (AI) 成為當今個人電腦 (PC) 和移動設備使用體驗(從聊天機器人到生產(chǎn)力提升)中不可或缺的一部分,這些設備對 CPU 高效、可擴展的推理需求也在持續(xù)增長。
    的頭像 發(fā)表于 05-28 13:54 ?911次閱讀

    Arm CPU適配通義千問Qwen3系列模型

    與阿里巴巴開源的輕量級深度學習框架 MNN 已深度集成。得益于此,Qwen3-0.6B、Qwen3-1.7B 及 Qwen3-4B 三款模型能夠在搭載 Arm 架構 CPU 的移動設備上無縫運行,為用戶提供卓越的端側 AI
    的頭像 發(fā)表于 05-12 16:37 ?1569次閱讀
    沙田区| 当涂县| 肇东市| 芦溪县| 东台市| 枣强县| 堆龙德庆县| 祁门县| 彩票| 贵阳市| 长葛市| 承德市| 都匀市| 滨州市| 涞水县| 新邵县| 武强县| 陆河县| 山西省| 邵阳县| 伊宁市| 龙南县| 林芝县| 康平县| 翁源县| 屏东市| 潍坊市| 咸阳市| 额尔古纳市| 田阳县| 伊通| 桦南县| 郸城县| 清镇市| 土默特右旗| 光山县| 白玉县| 皮山县| 科技| 卓资县| 鄂托克旗|