哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Groq推出大模型推理芯片 超越了傳統(tǒng)GPU和谷歌TPU

汽車電子設(shè)計(jì) ? 來(lái)源:芝能汽車 ? 2024-02-26 10:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動(dòng),超越了傳統(tǒng)GPU和谷歌TPU。該芯片采用了全球首個(gè)LPU方案,解決了計(jì)算密度和內(nèi)存帶寬的瓶頸,推理速度提高了10倍,成本降低十分之一,性價(jià)比提高了100倍。芯片搭載了230MB大SRAM,內(nèi)存帶寬高達(dá)80TB/s,算力強(qiáng)大,支持多種機(jī)器學(xué)習(xí)框架進(jìn)行推理。 Groq在演示中展示了多種模型的強(qiáng)大性能,并宣稱在三年內(nèi)將超越英偉達(dá)產(chǎn)品特色包括API訪問(wèn)速度快、支持多種開(kāi)源LLM模型、價(jià)格優(yōu)勢(shì)等,成為大模型推理領(lǐng)域的新興力量。

Groq 公司的創(chuàng)始于2016年,旗艦產(chǎn)品是 Groq Tensor Streaming Processor Chip(TSP)和相應(yīng)的軟件,主要應(yīng)用于人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域。目標(biāo)市場(chǎng)包括人工智能和機(jī)器學(xué)習(xí)超大規(guī)模應(yīng)用、政府部門(mén)、高性能計(jì)算集群、自動(dòng)駕駛車輛以及高性能邊緣設(shè)備。

Groq產(chǎn)品以其出色的推理性能、對(duì)多種開(kāi)源LLM模型的支持以及具有競(jìng)爭(zhēng)力的價(jià)格政策等特色,成為一個(gè)引人注目的選擇。這個(gè)芯片到底是怎么做的呢?

6563bedc-d440-11ee-a297-92fbcf53809c.png

Part 1

Groq的做法

隨著人工智能(AI)和高性能計(jì)算(HPC)的融合發(fā)展,對(duì)于同時(shí)處理AI和HPC工作負(fù)載的需求日益增加。在這一背景下,Groq公司推出了其最新的AI推理加速器,旨在簡(jiǎn)化計(jì)算、提高效率,并實(shí)現(xiàn)更高的可擴(kuò)展性,軟件定義張量流多處理器(TSP),采用了一種全新的硬件軟件結(jié)合的方法,為人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用提供更高效的計(jì)算支持。

Groq AI推理加速器的設(shè)計(jì)思想是結(jié)合了HPC與AI的工作負(fù)載需求,提供了一種創(chuàng)新的可擴(kuò)展計(jì)算架構(gòu)。

相比傳統(tǒng)的GPU,GroqChip 1具有更簡(jiǎn)化的編程模型,更高的響應(yīng)速度以及更可靠的執(zhí)行。該芯片擁有多個(gè)特色組件,包括高速網(wǎng)絡(luò)、數(shù)據(jù)交換器、指令控制、SRAM內(nèi)存以及Groq TruePoint矩陣,使其具備了強(qiáng)大的計(jì)算能力和靈活性。

傳統(tǒng)的 CPU 架構(gòu)在控制邏輯方面隱藏了大量復(fù)雜性,如緩存、預(yù)取、亂序執(zhí)行和分支預(yù)測(cè),但這些控制邏輯會(huì)減少可用于原始計(jì)算的面積。

與此相反,Groq 公司重新審視了硬件軟件的合約,創(chuàng)造出了更加可預(yù)測(cè)和基于流的硬件,并將更多的控制權(quán)交給了軟件。

硬件(CPU)定義了軟件,但隨著數(shù)據(jù)流型計(jì)算需求的增長(zhǎng)以及摩爾定律和 Dennard 縮放的減速,CPU“抽象”不再是軟件開(kāi)發(fā)的唯一基礎(chǔ)。因此,Hennessy 和 Patterson 提出了“計(jì)算機(jī)體系結(jié)構(gòu)的新黃金時(shí)代”的觀點(diǎn),Lattner 提出了“編譯器的新黃金時(shí)代”的觀點(diǎn),Karpathy 則提出了“軟件 2.0”的概念,這都預(yù)示著硬件與軟件的抽象合約已經(jīng)重新開(kāi)啟,實(shí)現(xiàn)了“軟件定義硬件”的機(jī)會(huì)。

GroqChip 的可擴(kuò)展架構(gòu)以簡(jiǎn)化計(jì)算,通過(guò)使用大量單級(jí)劃分 SRAM 和顯式分配張量,實(shí)現(xiàn)了可預(yù)測(cè)的性能。

此外,Groq 公司設(shè)計(jì)了功能劃分的微體系結(jié)構(gòu),重新組織了多核網(wǎng)格,使得編譯器可以對(duì)程序執(zhí)行進(jìn)行精確控制,從而提高了執(zhí)行效率。

659b1602-d440-11ee-a297-92fbcf53809c.png

Groq AI推理加速器支持各種規(guī)模的計(jì)算節(jié)點(diǎn),從單個(gè)卡片到整個(gè)機(jī)架,都能實(shí)現(xiàn)高效的并行計(jì)算。

65aae5d2-d440-11ee-a297-92fbcf53809c.png

通過(guò)GroqRack和GroqNode等組件的組合,用戶可以根據(jù)實(shí)際需求靈活搭建計(jì)算集群,實(shí)現(xiàn)對(duì)不同規(guī)模工作負(fù)載的處理。

Groq 公司提供了強(qiáng)大的編譯器支持,通過(guò)在編譯時(shí)和運(yùn)行時(shí)之間建立靜態(tài)-動(dòng)態(tài)接口和硬件-軟件接口,賦予了軟件更多的數(shù)據(jù)編排權(quán)力。該編譯器能夠?qū)崿F(xiàn) SOTA(State of the Art)級(jí)別的性能,對(duì)于一些重要的矩陣操作如通用矩陣乘法(GEMM),Cholesky 分解等,取得了令人矚目的成果。

65aff626-d440-11ee-a297-92fbcf53809c.png

在系統(tǒng)拓?fù)浣Y(jié)構(gòu)方面,Groq 公司采用了低直徑網(wǎng)絡(luò) Dragonfly,以最小化網(wǎng)絡(luò)中的跳數(shù),提高了數(shù)據(jù)傳輸效率。

同時(shí),通過(guò) Chip-to-Chip(C2C)鏈接和流量控制,實(shí)現(xiàn)了多芯片間的通信。此外,Groq 公司還提出了一種多芯片間的分區(qū)和流水線并行執(zhí)行的方法,以進(jìn)一步提高多芯片系統(tǒng)的性能。

65b4d1f0-d440-11ee-a297-92fbcf53809c.png

Part 2

實(shí)際案例

除了傳統(tǒng)的計(jì)算流體動(dòng)力學(xué)(CFD)應(yīng)用外,Groq AI推理加速器還可應(yīng)用于圖神經(jīng)網(wǎng)絡(luò)(GNN)等領(lǐng)域。GNN廣泛應(yīng)用于非歐幾里得數(shù)據(jù)的建模和預(yù)測(cè),例如化學(xué)分子結(jié)構(gòu)、社交媒體推薦系統(tǒng)等。Groq芯片在處理這類非結(jié)構(gòu)化數(shù)據(jù)時(shí)表現(xiàn)出色,通過(guò)深度學(xué)習(xí)算法的加速,能夠大幅提升模型訓(xùn)練和推理的效率。軟件定義張量流多處理器提供了一種全新的硬件軟件結(jié)合的方法,通過(guò)重新審視硬件軟件合約,將更多的控制權(quán)交給了軟件,從而實(shí)現(xiàn)了更高效的計(jì)算性能。隨著人工智能和深度學(xué)習(xí)應(yīng)用的不斷發(fā)展,這種方法將有望在未來(lái)的計(jì)算領(lǐng)域發(fā)揮重要作用。

在實(shí)際應(yīng)用中,Groq AI推理加速器已經(jīng)在化學(xué)分子屬性預(yù)測(cè)、藥物發(fā)現(xiàn)等領(lǐng)域取得了顯著的成果。

65d0a9f2-d440-11ee-a297-92fbcf53809c.png

借助其高性能和可擴(kuò)展性,Groq芯片在處理大規(guī)模數(shù)據(jù)集時(shí)能夠?qū)崿F(xiàn)極大的加速,從而提升了科學(xué)研究和工程實(shí)踐的效率。

65ff0b4e-d440-11ee-a297-92fbcf53809c.png

小結(jié)

總的來(lái)說(shuō),Groq AI推理加速器以其創(chuàng)新的設(shè)計(jì)思想和強(qiáng)大的性能,在處理融合HPC與AI工作負(fù)載的應(yīng)用中展現(xiàn)出了巨大的潛力。隨著對(duì)于高性能計(jì)算和人工智能技術(shù)的不斷發(fā)展,相信Groq芯片將在各個(gè)領(lǐng)域展現(xiàn)出更廣泛的應(yīng)用前景。

?



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1819

    文章

    50284

    瀏覽量

    266761
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    67

    文章

    8560

    瀏覽量

    137194
  • TSP
    TSP
    +關(guān)注

    關(guān)注

    1

    文章

    26

    瀏覽量

    17473
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3746

    瀏覽量

    5266
  • Groq
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    217

原文標(biāo)題:Groq AI推理加速器: 三年內(nèi)超越英偉達(dá)?

文章出處:【微信號(hào):QCDZSJ,微信公眾號(hào):汽車電子設(shè)計(jì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型推理服務(wù)的彈性部署與GPU調(diào)度方案

    7B 模型 FP16 推理需要約 14GB 顯存,70B 模型需要 140GB+,KV Cache 隨并發(fā)數(shù)線性增長(zhǎng),顯存碎片化導(dǎo)致實(shí)際利用率不足 60%。
    的頭像 發(fā)表于 03-03 09:29 ?371次閱讀

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    領(lǐng)域占據(jù)主導(dǎo),其GPU憑借強(qiáng)大的海量數(shù)據(jù)處理能力,成為全球AI爆炸式增長(zhǎng)的重要基石。但隨著AI不斷演進(jìn),重點(diǎn)正從大規(guī)模訓(xùn)練轉(zhuǎn)向?qū)σ延?xùn)練模型推理和推斷,推理已然成為新的競(jìng)爭(zhēng)戰(zhàn)場(chǎng)。業(yè)內(nèi)普
    的頭像 發(fā)表于 02-03 17:15 ?3195次閱讀

    曦望發(fā)布新一代推理GPU芯片,單位Token推理成本降低90%

    電子發(fā)燒友網(wǎng)報(bào)道 1月27日,國(guó)產(chǎn)GPU廠商曦望(Sunrise)重磅發(fā)布新一代推理GPU芯片——啟望S3。這是曦望在近一年累計(jì)完成約30億元戰(zhàn)略融資后的首次集中公開(kāi)亮相。2025年,
    的頭像 發(fā)表于 01-28 17:38 ?9480次閱讀

    今日看點(diǎn):消息稱 AMD、高通考慮導(dǎo)入 SOCAMM 內(nèi)存;曦望發(fā)布新一代推理GPU芯片啟望S3

    曦望發(fā)布新一代推理GPU芯片啟望S3 近日,浙江杭州GPU創(chuàng)企曦望(Sunrise)發(fā)布新一代推理GPU
    發(fā)表于 01-28 11:09 ?1291次閱讀

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對(duì)當(dāng)前大型推理模型(LRM)進(jìn)行了深刻的剖析,超越表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細(xì)技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?662次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    英偉達(dá)重磅出手!AI 推理存儲(chǔ)全面覺(jué)醒

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)近日,有消息稱,英偉達(dá)將以大約200億美元收購(gòu)人工智能芯片初創(chuàng)公司Groq,這將是英偉達(dá)迄今為止規(guī)模最大的一筆收購(gòu)。但英偉達(dá)回應(yīng)表示,并未計(jì)劃收購(gòu)Groq,僅達(dá)成技術(shù)
    的頭像 發(fā)表于 12-26 08:44 ?1.2w次閱讀
    英偉達(dá)重磅出手!AI <b class='flag-5'>推理</b>存儲(chǔ)全面覺(jué)醒

    AI硬件全景解析:CPU、GPU、NPU、TPU的差異化之路,一文看懂!?

    CPU作為“通用基石”,支撐所有設(shè)備的基礎(chǔ)運(yùn)行;GPU憑借并行算力,成為AI訓(xùn)練與圖形處理的“主力”;TPU在Google生態(tài)中深耕云端大模型訓(xùn)練;NPU則讓AI從“云端”走向“身邊”(手機(jī)、手表
    的頭像 發(fā)表于 12-17 17:13 ?2157次閱讀
    AI硬件全景解析:CPU、<b class='flag-5'>GPU</b>、NPU、<b class='flag-5'>TPU</b>的差異化之路,一文看懂!?

    谷歌正式推出最新Gemini 3 AI模型

    今天我們正式推出 Gemini 3,這是我們迄今為止最智能的模型,能夠幫助用戶實(shí)現(xiàn)任何創(chuàng)意。Gemini 3 Pro 基于最先進(jìn)的推理技術(shù),與之前的版本相比,它在所有主要的 AI 基準(zhǔn)測(cè)試中都取得了無(wú)與倫比的結(jié)果,尤其是在編程方
    的頭像 發(fā)表于 11-24 11:10 ?1399次閱讀
    <b class='flag-5'>谷歌</b>正式<b class='flag-5'>推出</b>最新Gemini 3 AI<b class='flag-5'>模型</b>

    谷歌云發(fā)布最強(qiáng)自研TPU,性能比前代提升4倍

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近日,谷歌云在官方博客上正式宣布,公司成功推出第七代TPU(張量處理器)“Ironwood”,該芯片預(yù)計(jì)在未來(lái)幾周內(nèi)正式上市。 ? “Ironwood”由
    的頭像 發(fā)表于 11-13 07:49 ?8891次閱讀
    <b class='flag-5'>谷歌</b>云發(fā)布最強(qiáng)自研<b class='flag-5'>TPU</b>,性能比前代提升4倍

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1432次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    的我我們講解了這幾種芯片的應(yīng)用場(chǎng)景,設(shè)計(jì)流程、結(jié)構(gòu)等。 CPU: 還為我們講解了一種算法:哈希表算法 GPU: 介紹英偉達(dá)H100GPU
    發(fā)表于 09-12 16:07

    ?Groq LPU 如何讓萬(wàn)億參數(shù)模型「飛」起來(lái)?揭秘 Kimi K2 40 倍提速背后的黑科技

    開(kāi)放預(yù)覽,引發(fā)了開(kāi)發(fā)者社區(qū)的瘋狂討論——?為什么 Groq 能跑得這么快?? 傳統(tǒng) AI 推理硬件(如 GPU)往往面臨一個(gè)兩難選擇: ? ?快?(但犧牲精度) ? ?準(zhǔn)?(但延遲高到
    的頭像 發(fā)表于 08-07 10:01 ?1294次閱讀

    模型推理顯存和計(jì)算量估計(jì)方法研究

    ,為實(shí)際應(yīng)用提供有益的參考。 未來(lái),我們將繼續(xù)深入研究大模型推理的優(yōu)化方法,以降低顯存和計(jì)算資源的需求,提高深度學(xué)習(xí)模型在實(shí)際應(yīng)用中的性能。
    發(fā)表于 07-03 19:43

    為什么無(wú)法在GPU上使用INT8 和 INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉(zhuǎn)換為 int 4 和 int8,并在 GPU 上使用 OpenVINO? 運(yùn)行推理。 沒(méi)有可用的
    發(fā)表于 06-23 07:11

    智算加速卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉GPUTPU!

    隨著AI技術(shù)火得一塌糊涂,大家都在談"大模型"、"AI加速"、"智能計(jì)算",可真到了落地環(huán)節(jié),算力才是硬通貨。你有沒(méi)有發(fā)現(xiàn),現(xiàn)在越來(lái)越多的AI企業(yè)不光用GPU,也不怎么迷信TPU?他
    的頭像 發(fā)表于 06-05 13:39 ?1854次閱讀
    智算加速卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉<b class='flag-5'>GPU</b>和<b class='flag-5'>TPU</b>!
    清水县| 云安县| 资阳市| 威信县| 连平县| 海门市| 鄯善县| 临沂市| 阜平县| 花垣县| 瓦房店市| 九龙城区| 许昌县| 博湖县| 海安县| 连山| 远安县| 平陆县| 县级市| 伊川县| 吉木乃县| 黑河市| 上林县| 克拉玛依市| 朝阳区| 柘荣县| 新丰县| 谢通门县| 苏尼特左旗| 镇安县| 瓦房店市| 南城县| 和平县| 甘孜县| 三原县| 寻甸| 秦皇岛市| 盐城市| 南丰县| 社旗县| 中牟县|