哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton 系列文章(10):模型并發(fā)執(zhí)行

NVIDIA英偉達企業(yè)解決方案 ? 來源:未知 ? 2023-01-05 11:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前面已經(jīng)做好了每個推理模型的基礎(chǔ)配置,基本上就能正常讓 Triton 服務(wù)器使用這些獨立模型進行推理。接下來的重點,就是要讓設(shè)備的計算資源盡可能地充分使用,首先第一件事情就是模型并發(fā)執(zhí)行(concurrent model execution)的調(diào)試,這是提升 Triton 服務(wù)器性能的最基本任務(wù)。

Triton 服務(wù)器支持的模型并發(fā)能力,包括一個模型并發(fā)多個推理實例,以及多個模型的多個并發(fā)實例。至于能并發(fā)多少實例?就需要根據(jù)系統(tǒng)上的硬件配置,Triton 支持純 CPU 以及多 GPU 的計算環(huán)境。

GPU 是能夠同時執(zhí)行多個工作負(fù)載的計算引擎,Triton 推理服務(wù)器通過在 GPU上同時運行多個模型,最大限度地提高性能并減少端到端延遲,這些模型可以完全相同也可以是不同框架的不同模型,顯存大小是唯一限制并發(fā)運行模型數(shù)量的因素。

下圖顯示了兩個計算模型 compute model 0 與 compute model 1 的示例,假設(shè) Triton 服務(wù)器當(dāng)前處于等待狀態(tài),當(dāng) request 0 與 request 1 兩個請求同時到達時,Triton 會立即將這兩個請求調(diào)度到 GPU 上(下圖左),開始并發(fā)處理這兩個模型的推理計算。

69003688-8cac-11ed-bfe3-dac502259ad0.png

認(rèn)情況下,Triton 指定系統(tǒng)中的每個可用 GPU 為每個模型提供一個實例,如果同一模型的多個請求同時到達,Triton 將通過在 GPU 上一次只調(diào)度一個請求來串行化它們的執(zhí)行(上圖中)。這樣的方式在管理上是最輕松的,但是執(zhí)行效率并不好,因為計算性能并未被充分調(diào)用。

Triton 提供了一個 “instance_group” 的模型配置選項,通過在模型配置中使用這個字段,可以更改模型的執(zhí)行實例數(shù),調(diào)整每個模型的并發(fā)執(zhí)行數(shù)量。

上圖右就是在 model 1 配置文件中,添加 “instance_group” 配置,并且設(shè)置 “count: 3” 的參數(shù),這樣就允許一個 GPU 上可以并發(fā)三個實例的模型計算,如果用戶端發(fā)出超過 3 個推理請求時,則第 4 個 model 1 推理請求就必須等到前三個實例中的任一個執(zhí)行完之后,才能開始執(zhí)行。

Triton可以提供一個模型的多個實例,從而可以同時處理該模型的多條推理請求。模型配置 ModelInstanceGroup 屬性用于指定應(yīng)可用的執(zhí)行實例的數(shù)量以及應(yīng)為這些實例使用的計算資源。接下來就看看幾個標(biāo)準(zhǔn)用法:

1. 單 CPU 或 GPU 單實例

未添加任何 instance_group 參數(shù)時,表示這個模型使用默認(rèn)的配置,這時該模型可以在系統(tǒng)中可用的每個 GPU 中創(chuàng)建單個執(zhí)行實例。如果用戶端提出多個請求時,就會在 GPU 設(shè)備上按照串行方式執(zhí)行計算,如同上圖中 compute model 1 的狀態(tài)。

2. 單 CPU 或 GPU 并發(fā)多實例

實例組設(shè)置可用于在每個 GPU 上或僅在某些 GPU 上放置模型的多個執(zhí)行實例。例如,以下配置將在每個系統(tǒng) GPU 上放置模型的兩個執(zhí)行實例。如果要讓模型在一個 GPU 上執(zhí)行多個并行實例,就將以下的內(nèi)容寫入模型配置文件內(nèi),這里配置的是 2 個并發(fā)實例:

instance_group [ 
  { 
    count: 2 
    kind: KIND_GPU 
  } 
]
如果將上面配置的計算設(shè)備配置為 “kind:KIND_CPU” ,就是指定在 CPU 可以并發(fā)兩個推理計算。 3. 多 CPU 或 GPU 并發(fā)多實例 如果設(shè)備上有多個計算設(shè)備,不管是 CPU 或 GPU,都可以使用以下配置方式,為模型配置多個并發(fā)推理實例:
instance_group [ 
  { 
    count: 1 
    kind: KIND_GPU 
    gpus: [ 0 ] 
  }, 
  { 
    count: 2 
    kind: KIND_GPU 
    gpus: [ 1, 2 ] 
  } 
]
這里的內(nèi)容,表示 Triton 服務(wù)器至少啟動 3 個 GPU 計算設(shè)備,這個推理模型在編號為 0 的 GPU 上啟動 1 個并發(fā)實例,在編號為 1 與 2 的 GPU 上可以同時啟動 2 個并發(fā)實例,以此類推。 以上是 instance_group 的基礎(chǔ)配置內(nèi)容,如果要對每個 GPU 設(shè)備的計算資源進行更深層的配置,還可以配合一個“比例限制器配置(Rate Limiter Configuration)”參數(shù)設(shè)置,對于執(zhí)行實例進行資源的限制,以便于在不同實例直接取得計算平衡。 這個比例限制器的配置,主要有以下兩部分:
  • 資源(Reousrces)限制:
這個資源主要指的是 GPU 的顯存調(diào)用,因為數(shù)據(jù)在 CPU 與 GPU 之間的交換傳輸,經(jīng)常在整個計算環(huán)節(jié)中造成很大的影響,如果當(dāng)我們需要對同一組數(shù)據(jù)進行不同的計算,或者計算過程中有流水線前后關(guān)系的話,那么將這些需要重復(fù)使用的數(shù)據(jù)保留在 GPU 顯存上,就能非常有效減少數(shù)據(jù)傳輸次數(shù),進而提升計算效率。 因此我們可以對模型實例提出限制,只有當(dāng)系統(tǒng)閑置資源能滿足資源需求時,才進行這個推理模型的計算。如果模型配置里沒有提供任何資源限制的需求,那么 Triton 服務(wù)器就認(rèn)定這個模型實例的執(zhí)行并不需要任何資源,并將在模型實例可用時立即開始執(zhí)行。 這個配置項里有三個參數(shù)內(nèi)容: (1)“name”字段:資源名稱; (2)“count”字段:組中模型實例需要運行的資源副本數(shù); (3)“global”字段:指定資源是按設(shè)備還是在系統(tǒng)中全局共享。 下面是一個簡單的模型配置內(nèi)容的 instance_group 參數(shù)組:
instance_group [ 
  { 
    count: 2 
    kind: KIND_GPU 
gpus: [ 0 ] 
    rate_limiter { 
      resources [ 
        { 
          name: "R1" 
          count: 4 
        } 
] 
    } 
  }, 
  { 
    count: 4 
    kind: KIND_GPU 
gpus: [ 1, 2 ] 
    rate_limiter { 
      resources [        
        { 
          name: "R2" 
          global: True 
          count: 2 
        } 
      ] 
} 
  } 
]

  • 第 1 組配置:可并發(fā)執(zhí)行數(shù)量為 2,指定使用 gpu[0] 設(shè)備,需要名為 “R1” 的計算資源,其內(nèi)容是需要 2 份設(shè)備內(nèi)存的副本;

  • 第 2 組配置:可并發(fā)執(zhí)行數(shù)量為 4,指定使用 gpu[1, 2] 兩個設(shè)備,需要名為 “R2” 的計算資源,其內(nèi)容是需要 4 份全局共享內(nèi)存的副本,

這里面的并發(fā)數(shù)量與資源配置數(shù)量并不存在線性關(guān)系,開發(fā)人員必須根據(jù)模型所需要數(shù)據(jù)的張量尺度,以及 GPU 卡顯存大小去進行調(diào)配。 Triton 允許我們指定要為推理提供的每個模型的副本數(shù)量,默認(rèn)情況下會獲得每個模型的一個副本,但可以使用 instance_group 在模型配置中指定任意數(shù)量的實例。通常擁有一個模型的兩個實例會提高性能,因為它允許 CPU 與 GPU 之間的內(nèi)存?zhèn)鬏敳僮髋c推理計算重疊。多個實例還通過允許在 GPU 上并發(fā)更多推理工作來提高GPU 利用率。
  • 優(yōu)先級(Priority)設(shè)置:
因為計算資源是有限的,因此也可以在資源配置是對其進行優(yōu)先級的配置,如此也會影響實例進行的先后順序。下面是一個簡單的優(yōu)先級配置示范:
instance_group [ 
  { 
    count: 1 
    kind: KIND_GPU 
    gpus: [ 0, 1, 2 ] 
    rate_limiter { 
      resources [ 
        { 
          name: "R1" 
          count: 4 
        }, 
        { 
          name: "R2" 
          global: True 
          count: 2 
        } 
      ] 
      priority: 2 
    } 
  } 
] 
上面配置組的 3 個模型實例,每個設(shè)備(0、1和2)上執(zhí)行一個,每個實例需要 4 個 “R1” 和 2 個具有全局資源的 “R2” 資源才能執(zhí)行,并將比例限制器的優(yōu)先級設(shè)置為 2。 這三個實例之間不會爭奪 “R1” 資源,因為 “R1” 對于它們自己的設(shè)備是本地的,但是會爭奪 “R2” 資源,因為它被指定為全局資源,這意味著 “R2” 在整個系統(tǒng)中共享。雖然這些實例之間不爭 “R1”,但它們將與其他模型實例爭奪 “R1“,這些模型實例在資源需求中包含 “R1” 并與它們在同一設(shè)備上運行。 這是對所有模型的所有實例進行優(yōu)先級排序,優(yōu)先級 2 的實例將被賦予優(yōu)先級 1 的實例 1/2 的調(diào)度機會數(shù)。 以上是關(guān)于 Triton 服務(wù)器“模型并發(fā)執(zhí)行”的基礎(chǔ)內(nèi)容,后面還有更多關(guān)于調(diào)度器(scheduler)與批量處理器(batcher)的配合內(nèi)容,能更進一步地協(xié)助開發(fā)人員調(diào)試系統(tǒng)的總體性能。


原文標(biāo)題:NVIDIA Triton 系列文章(10):模型并發(fā)執(zhí)行

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關(guān)注

    關(guān)注

    23

    文章

    4115

    瀏覽量

    99601

原文標(biāo)題:NVIDIA Triton 系列文章(10):模型并發(fā)執(zhí)行

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA與亞馬遜云科技深化合作伙伴關(guān)系

    NVIDIA 和亞馬遜云科技 (AWS) 擴展雙方合作,增強在 AWS 平臺上的由 NVIDIA 驅(qū)動的數(shù)據(jù)處理能力,并增加對 NVIDIA Nemotron 開放模型
    的頭像 發(fā)表于 03-23 15:17 ?440次閱讀

    NVIDIA 擴展開放模型系列,推動代理式、物理和醫(yī)療 AI 下一階段發(fā)展

    新聞?wù)?●NVIDIA Nemotron 3 全模態(tài)理解模型 (Omni-understanding Models) 為 AI 智能體提供動力 ,使其能夠?qū)崿F(xiàn)自然對話、復(fù)雜推理和高級視覺能力
    的頭像 發(fā)表于 03-17 09:18 ?499次閱讀
    <b class='flag-5'>NVIDIA</b> 擴展開放<b class='flag-5'>模型</b><b class='flag-5'>系列</b>,推動代理式、物理和醫(yī)療 AI 下一階段發(fā)展

    NVIDIA Jetson模型賦能AI在邊緣端落地

    開源生成式 AI 模型不再局限于數(shù)據(jù)中心,而是開始深入到現(xiàn)實世界的各種機器中。從 Orin 到 Thor,NVIDIA Jetson 系列正在成為運行 NVIDIA Nemotron、
    的頭像 發(fā)表于 03-16 16:27 ?604次閱讀
    <b class='flag-5'>NVIDIA</b> Jetson<b class='flag-5'>模型</b>賦能AI在邊緣端落地

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢是允許開發(fā)者基于其構(gòu)建自定義的 DS
    的頭像 發(fā)表于 02-10 10:31 ?507次閱讀

    NVIDIA 推出 Nemotron 3 系列開放模型

    新聞?wù)?● Nemotron 3 系列開放模型包含 Nano、Super 和 Ultra 三種規(guī)模,具有極高的效率和領(lǐng)先的精度,適用于代理式 AI 應(yīng)用開發(fā)。 ● Nemotron 3 Nano
    的頭像 發(fā)表于 12-16 09:27 ?805次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Nemotron 3 <b class='flag-5'>系列</b>開放<b class='flag-5'>模型</b>

    NVIDIA攜手Mistral AI發(fā)布全新開源大語言模型系列

    全新 Mistral 3 系列涵蓋從前沿級到緊湊型模型,針對 NVIDIA 平臺進行了優(yōu)化,助力 Mistral AI 實現(xiàn)云到邊緣分布式智能愿景。
    的頭像 發(fā)表于 12-13 09:58 ?1430次閱讀

    NVIDIA推動面向數(shù)字與物理AI的開源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語音、安全與輔助駕駛領(lǐng)域的全新 AI 工具,其中包括面向移動出行領(lǐng)域的行業(yè)級開源視覺-語言-動作推理模型(Reasoning VLA) NVIDIA DRI
    的頭像 發(fā)表于 12-13 09:50 ?1526次閱讀

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數(shù)據(jù)生成。借助 NVID
    的頭像 發(fā)表于 12-01 09:25 ?1411次閱讀

    面向科學(xué)仿真的開放模型系列NVIDIA Apollo正式發(fā)布

    用于加速工業(yè)和計算工程的開放模型系列 NVIDIA Apollo 于近日舉行的 SC25 大會上正式發(fā)布。
    的頭像 發(fā)表于 11-25 11:15 ?7.4w次閱讀

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開發(fā)者都可以構(gòu)建并部署帶有先進動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓(xùn)練框架,任何人都可以針對特定用例對現(xiàn)有
    的頭像 發(fā)表于 10-21 11:11 ?1005次閱讀
    <b class='flag-5'>NVIDIA</b>開源Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發(fā)進程

    科研人員及開發(fā)者打造功能更強大、適應(yīng)性更強的機器人。 ? 全新的 NVIDIA Isaac GR00T 開源基礎(chǔ)模型將為機器人賦予接近人類的推理能力,使其能夠拆解復(fù)雜指令,并借助已有知識與常識執(zhí)行
    的頭像 發(fā)表于 09-30 09:52 ?3203次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源<b class='flag-5'>模型</b>與仿真庫加速機器人研發(fā)進程

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1999次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2推理<b class='flag-5'>模型</b>發(fā)布

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 開源其物理 AI 平臺 NVIDIA Cosmos 中的關(guān)鍵模型——NVIDIA Cosmos Reason-1-7B。這款先進的多模態(tài)大
    的頭像 發(fā)表于 07-09 10:17 ?1005次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?2060次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    【幸狐Omni3576邊緣計算套件試用體驗】幸狐Omni3576開發(fā)板移植YOLOV10和推理測試

    /rknn_model_zoo.git (二)下載模型 執(zhí)行如下命令下載ONNX模型用于轉(zhuǎn)換。 chmod a+x download_model.sh ./download_model.sh (三)
    發(fā)表于 05-24 12:27
    麦盖提县| 江油市| 清苑县| 广元市| 普定县| 拉孜县| 东乌珠穆沁旗| 彰化市| 襄垣县| 抚松县| 靖安县| 武穴市| 蕉岭县| 佛山市| 湖南省| 中卫市| 渭源县| 佛山市| 林西县| 习水县| 武宣县| 讷河市| 陈巴尔虎旗| 武平县| 乌兰浩特市| 扶风县| 德化县| 大名县| 淅川县| 丰县| 遵义县| 阿尔山市| 大关县| 桃源县| 通化市| 温泉县| 江陵县| 顺义区| 嵩明县| 泰安市| 三亚市|