哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TensorRT-LLM低精度推理優(yōu)化

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2024-11-19 14:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對(duì)比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model Optimizer(簡(jiǎn)稱 ModelOpt)及其快速實(shí)現(xiàn)量化功能的方法。第三部分為 Debug。隨后講解 FP8 的 Deep-Dive,并進(jìn)行總結(jié)。

速度和精度

5e07aed4-a288-11ef-93f3-92fbcf53809c.jpg

在講解精度之前,先介紹 NVIDIA Hopper 架構(gòu)上的數(shù)據(jù)類型 FP8,它有兩種數(shù)據(jù)類型:E5M2 和 E4M3,在 TensorRT-LLM 中目前支持 E4M3。對(duì) Tensor Core 硬件來(lái)說(shuō),相比于 FP32/FP16 作為輸入,F(xiàn)P8 在數(shù)據(jù)傳輸上具有優(yōu)勢(shì)。另外,GEMM 運(yùn)算可直接使用 8 比特,相對(duì)于 16 比特的 TF32 或者 FP16 更快,且支持更高累加精度以保證精度。

5e1d9ae6-a288-11ef-93f3-92fbcf53809c.jpg

在 Perf 內(nèi)容之前,需重申在做 PTQ 量化時(shí)需對(duì)哪些 OP 進(jìn)行量化。以經(jīng)典的 Transform 結(jié)構(gòu)為例,量化主要圍繞紅色、藍(lán)色和綠色框進(jìn)行,涉及 4 種 GEMM 運(yùn)算和 Multi-Head Attention 的量化。

PTQ 量化需計(jì)算 Scaling Factor,Multi-Head Attention 中的 GEMM 運(yùn)算在 Scaling Facotr 為 1 就可以保持不錯(cuò)的精度(目前,TensorRT-LLM 中為了提高精度,在該部分做了 Scaling Factor 不為 1 的實(shí)現(xiàn),本文內(nèi)容是以 FMHA 的 Scaling 為 1 的情況下的分析)。而藍(lán)色和紅色 GEMM 運(yùn)算需進(jìn)行 Scaling 計(jì)算。除此之外,我們要保存 kvcache,也可對(duì) kvcache 進(jìn)行 8bit 量化,但需進(jìn)行 Scaling 計(jì)算。

5e2ad896-a288-11ef-93f3-92fbcf53809c.jpg

計(jì)算 Scaling Factor 的方法是使用 Quantize 腳本,添加如上圖所示兩個(gè)參數(shù)(--qformat fp8,--kv_cache_dtype fp8)即可進(jìn)行 FP8 Scaling 計(jì)算。對(duì)于 FMHA Attention 無(wú)需 Scaling,生成 Engine 使用“--use_fp8_context_fmha enable”即可快速生成 FP8、kvcache 和 GEMM 運(yùn)算功能。

第三步為評(píng)估,使用 MMLU 進(jìn)行估計(jì)。

5e45c75a-a288-11ef-93f3-92fbcf53809c.jpg

針對(duì)第三步,做精度評(píng)估時(shí),如圖所示,第一個(gè)小紅框?qū)?MMLU 78 個(gè)子數(shù)據(jù)集做了評(píng)估。因?yàn)槠^大,省略了中間的數(shù)據(jù)集,只展示其中的一部分。第一行代表了所做的量化方案。第一列是 baseline,GEMM 運(yùn)算采用的是 FP16,在整個(gè)表中,我們對(duì)比了 Attention 以外的 4 種 GEMM 運(yùn)算和對(duì)應(yīng)的 kvcache 開啟 FP8 情況下的精度。

首先是 FP8、INT8 weightonly + FP16 kvcache 及最后一列對(duì)應(yīng)的綠色框??梢钥吹剑思?FP8 方案能夠保持精度比較好的量化方式,其他的比如 INT8_sq,或者是 INT8 weightonly + INT8 kvcache 并不能保持很好的精度。

再看藍(lán)色框部分,對(duì)比純 FP16 和純 FP8 方案的精度情況,以及最后一行紅色框展示了平均的精度比較。

5e5f6b24-a288-11ef-93f3-92fbcf53809c.png

我們?cè)倏纯醇铀俦龋谝涣袑?duì)比了 FP8 和 FP16,性能提升 1.5~1.7 倍。另外兩種方式的加速比都比較不錯(cuò),但是仍然沒(méi)有 FP8 高。采用 INT8 sq 或者 INT8 sq + INT8 kvcache 對(duì)于精度的保持可能并不會(huì)太好。因此,我們優(yōu)先推薦純 FP8 的方案。

5e72f19e-a288-11ef-93f3-92fbcf53809c.jpg

這里還測(cè)試了 GEMM + kvcache+FMHA 方案。當(dāng)對(duì) FMHA 進(jìn)行 FP8 GEMM 運(yùn)算 enable 時(shí),對(duì)比純 FP8 與 FP16 FMHA 和 FP8 FMHA 這兩種方式的精度,采用純 FP8 方案,當(dāng)開啟 FMHA 時(shí),它的精度保持也是比較高的。

5e8a0af0-a288-11ef-93f3-92fbcf53809c.jpg

GEMM +kvcache + FMHA 對(duì)應(yīng)的性能:因?yàn)殚_啟 FMHA 的 FP8 僅是針對(duì)首 token 的優(yōu)化,首 token 的計(jì)算一般情況是一個(gè) computer bound 問(wèn)題,結(jié)果如上圖所示。我們?cè)谀晨?GPU 上測(cè)試了 Llama2 7B 模型,input sequence 越大,開啟 FMHA 的 FP8,帶來(lái)的加速比越來(lái)越明顯。

5ea24390-a288-11ef-93f3-92fbcf53809c.jpg

再來(lái)看下做量化的耗時(shí)情況,我們?cè)?CNNDaily 數(shù)據(jù)集上做了測(cè)試。在這個(gè)數(shù)據(jù)集中,我們首先推薦用 512 的數(shù)據(jù)量,就可以很好的完成 FP8 保持精度的 calibration,其概耗時(shí)是 40 毫秒。這是在另一款 GPU 上做的測(cè)試,如果顯存比較大,我們可以讓 Batch size 變大一點(diǎn),這時(shí) calibration 的時(shí)間可以變成秒級(jí)。

量化工具 AMMO/Modelopt

5eb1cb58-a288-11ef-93f3-92fbcf53809c.jpg

接下來(lái)介紹下量化工具 AMMO,它的最新的名字是 Modelopt。FP8 PTQ 量化的方式,可以總結(jié)為三個(gè)步驟:

第一步,Calibrate pytorch model

第二步,生成 model_config

第三步,生成 engine

其中:

第一步最重要的 API 是 Quantized API,通過(guò) Quantized API 可以生成 Scaling 的計(jì)算過(guò)程。關(guān)于這個(gè)過(guò)程,我們可以傳入一個(gè)模型,設(shè)置量化的 config,比如設(shè)置成 FP8。最后,準(zhǔn)備好需要的 calibrate 數(shù)據(jù)。

5edc4d92-a288-11ef-93f3-92fbcf53809c.jpg

第二步主要是幫助我們生成一個(gè) Json 文件和一組 weight 文件。Json 文件主要存儲(chǔ)模型結(jié)構(gòu)或者元數(shù)據(jù)。在 weight 文件中,group 的大小主要受 Tensor Parallelism 和 Pipeline Parallelism 影響,weight 則主要用來(lái)存儲(chǔ)對(duì)應(yīng)的參數(shù)。這步最重要的是 API,直接調(diào)用一個(gè) API,就可以轉(zhuǎn)成 model config,方便 TensorRT 生成 engine 時(shí)使用。

5ef3a42e-a288-11ef-93f3-92fbcf53809c.jpg

第三步也是通過(guò)一個(gè) API 就可以完成,也就是加載上一步的 model config,直接生成 engine 結(jié)果。在這過(guò)程中,有一些隱藏的參數(shù),比如訓(xùn)練的模型 TP/PP 比較大或者并行比較,在推理時(shí),可以通過(guò) API 讓 TP/PP 變小。圖中是我們用 Modelopt 工具做 PTQ 量化時(shí),一些簡(jiǎn)單的 API。

如何 Debug?

5f08ae46-a288-11ef-93f3-92fbcf53809c.jpg

在使用過(guò)程中,如果遇到問(wèn)題,該如何 debug?具體的 debug 過(guò)程如下:

第一步,找到想要輸出的 tensor 做注冊(cè),這里的注冊(cè)通過(guò)一個(gè) API 就可以完成。

第二步,build engine。

第三步,直接打開 debug model 進(jìn)行打印即可。

如上圖所示,展示了一個(gè)簡(jiǎn)單的 debug 過(guò)程。

5f342c1a-a288-11ef-93f3-92fbcf53809c.jpg

另外,debug 可能會(huì)遇到一些經(jīng)驗(yàn)性問(wèn)題:

在 debug 過(guò)程中,可能發(fā)現(xiàn) GEMM 的輸出不對(duì)。這時(shí),我們可以檢查 weights 的通道是否保持一致。因?yàn)?Huggingface 下載的不同模型,通道保持可能不太一樣。

Attention 輸出不對(duì)時(shí),可以查看 attention 使用的 plugin 的參數(shù),設(shè)置的是否正確。

Deep Dive

接下來(lái),對(duì) FP8 的 workloads 進(jìn)行 deep dive,看模型什么地方用了 FP8,以及采用 FP8 之后的具體收益和為什么要這么用。最后介紹用 FP8 build 出的 engine 中 Scaling factor 和 tensor core 是怎么調(diào)用的。讓大家了解 FP8 的底層原理,進(jìn)而放心的去使用。

5f53e71c-a288-11ef-93f3-92fbcf53809c.jpg

接下來(lái)介紹下從 FP16 模型 build FP8 Tensor-LLM engine 的過(guò)程。圖中黃色部分代表通過(guò) Modelopt toolkit 做 FP8 的權(quán)值轉(zhuǎn)換,存出 Model_config,再通過(guò) TensorRT-LLM 中的 From_json_file 和 Build_and_save 組件,將 Model_config 轉(zhuǎn)成 TensorRT-engine。

在這個(gè)過(guò)程中,大模型通常會(huì)有 6 個(gè)部分用到 FP8。其中模塊 1,4,5,6 為矩陣乘,2 是 FMHA,主要是 context phase 中的 batch GEMM 會(huì)用到 FP8。3 是 MMHA 中的 kvcache 會(huì)用 FP8 來(lái)存儲(chǔ),以節(jié)省顯存。

5f68e4b4-a288-11ef-93f3-92fbcf53809c.jpg

上圖展示了從 FP16 矩陣乘變成 FP8 矩陣乘的過(guò)程:綠色代表 FP16 精度,黃色代表 FP8 精度,藍(lán)色是 FP32 精度,灰色代表融合的過(guò)程。

我們剛開始拿到的是 FP16 的矩陣乘,針對(duì)這個(gè)矩陣乘的 Input 和 Weight 插入 QDQ 節(jié)點(diǎn)。對(duì)于 Output,如果使用 FP8 的 kvcache,也需要在 QKV GEMM 后面插入 QDQ 節(jié)點(diǎn)。如果不做 FP8 的 kvcache,或者矩陣乘是 QKV 之外的矩陣乘,由于 GEMM 的輸出是 half 型數(shù)據(jù),因此不需要插入 QDQ 節(jié)點(diǎn)。

當(dāng)把 QDQ 節(jié)點(diǎn)都插好之后,類似 TensorRT 的流程做 calibration,使用量化校準(zhǔn)數(shù)據(jù)集作為模型的輸入,對(duì)每一個(gè) activation 的 A-max 值做統(tǒng)計(jì)。我們并不是直接把 FP16 的數(shù)據(jù) cast 成 FP8,而是通過(guò)一個(gè)量化的過(guò)程來(lái)完成。這里借助 Modelopt 工具中的 QDQ 來(lái)計(jì)算量化參數(shù),也叫 Scaling Factor。有了 Scaling Factor,可以把左側(cè)插完 QDQ 的計(jì)算過(guò)程轉(zhuǎn)換成右側(cè)的計(jì)算過(guò)程。

其中輸入部分還是一個(gè)浮點(diǎn)的輸入,Quantized 節(jié)點(diǎn)可以把輸入量化成 FP8,在量化的過(guò)程中會(huì)盡可能與其他算子融合以減少數(shù)據(jù)傳輸。另外,權(quán)重矩陣用 weight 跟 Quantized scaling factor 乘完之后,存成一個(gè) FP8 的值在顯存中。當(dāng)計(jì)算矩陣乘時(shí),可以把 FP8 weight load 進(jìn)來(lái),再把量化之后的 input 用 FP8 的 tensor core 進(jìn)行計(jì)算。這里 FP8 只有 tensor core 支持,CUDA core 是沒(méi)有 FP8 的。用 FP8 tensor core 計(jì)算完之后,再做一個(gè)反量化,得出 FP16 的值。當(dāng)然,輸出值的類型是根據(jù)實(shí)際需要來(lái)配置的,也可以是其他的數(shù)據(jù)類型。

在國(guó)內(nèi)能買到的支持 FP8 的 H20 GPU 中,INT8 和 FP8 的算力峰值都是一樣的,都是 296 tflops。但實(shí)測(cè)中,F(xiàn)P8 用 Plug-in 或者用 TensorRT 融合的 myelin graph 運(yùn)算,都會(huì)發(fā)現(xiàn) FP8 比 INT8 快。這是因?yàn)?FP8 的計(jì)算是根據(jù) Hopper 硬件的一些特性來(lái)做的計(jì)算。但是 INT8 很多的計(jì)算沒(méi)有參考最新 Hopper 的架構(gòu)。所以,軟件優(yōu)先級(jí)的問(wèn)題也導(dǎo)致 FP8 矩陣乘的運(yùn)算比 INT8 要快。當(dāng)后續(xù)軟件層面也會(huì)優(yōu)化 INT8,這個(gè) Gap 將不存在。

5f7f7dd2-a288-11ef-93f3-92fbcf53809c.jpg

除了矩陣乘,Attention 部分也可以借助 FP8 做運(yùn)算。主要有兩個(gè):

Fused Multi-Head Attention:做 Context phase 時(shí),Attention 計(jì)算中的 batch GEMM 可以用 FP8 計(jì)算。因?yàn)?FMHA 是一個(gè)融合的 kernel,由兩個(gè) batch GEMM 和中間的 softmax 組成。由于 softmax 是累加的過(guò)程,所以必須用高精度 FP32 處理。但對(duì)于 batch GEMM,可以直接借助 FP8 的 Tensor Core 計(jì)算,最終輸出是一個(gè) FP8 的輸出。這樣輸出的原因是 FMHA kernel 后,緊跟著一個(gè) FP8 的矩陣乘 project GEMM,可以直接接收 FP8 的輸出,所以直接輸出一個(gè) FP8 即可,減少了一次量化。

對(duì)于 FMHA,為什么不用 INT8?這里我們做過(guò)相應(yīng)的實(shí)驗(yàn),INT8 的 FMHA 在精度上比 FP8 有很大的下降。所以,INT8 由于精度問(wèn)題用不了,而 FP8 的精度更魯棒。同時(shí),也因?yàn)?FP8 在絕對(duì)值相對(duì)較小的情況下,打點(diǎn)比 INT8 的數(shù)據(jù)分布更密集。但當(dāng)絕對(duì)值很大時(shí),對(duì)于離群點(diǎn)部分,INT8 不區(qū)分離群點(diǎn)和非離群點(diǎn)的打點(diǎn)密集程度,而 FP8 在離群點(diǎn)的地方打點(diǎn)很疏,在非離群點(diǎn)打點(diǎn)很密集,所以 FP8 的精度更魯棒。

FP8 中的 Quantized 和 Dequantized,有一個(gè) per tensor 量化參數(shù)就可以搞定。不需像 INT8 per token + per channel 這樣復(fù)雜,F(xiàn)P8 就可以保持精度,這也是用 FP8 顯而易見(jiàn)的好處。

Masked Multi-Head Attention:Generation phase 計(jì)算 Attention 模塊時(shí),需要用融合的算子。因?yàn)?MMHA 的計(jì)算量比 FMHA 小很多,雖然也需要做 batched GEMM,batched GEMM 的 batch 維度都是 BS * HEAD_NUM,區(qū)別在于,context phase 的 GEMM 是 [length, head_size] * [head_size, length],而 generation 的 GEMM 是 [1, head_size] * [head_size, length],因此 batch GEMM 并不是計(jì)算密集型的計(jì)算過(guò)程,所以換 FP8 的收益不大,直接用浮點(diǎn)即可。但是加載 KV-cache 的模塊可以通過(guò) FP8 量化來(lái)節(jié)省顯存。KV-cache 有 INT8 KV-cache,也有 FP8 KV-cache。相比 INT8,F(xiàn)P8 的精度更魯棒,在 Hopper 硬件架構(gòu)下,F(xiàn)P8 KV-cache 轉(zhuǎn)出浮點(diǎn)的速度比 INT8 快。所以,F(xiàn)P8 KV-cache 的 MMHA 速度比 INT8 KV-cache 的 MMHA 要快。

5fa215cc-a288-11ef-93f3-92fbcf53809c.jpg

借助 NVIDIA NCU 工具,對(duì)比在未打開 XQA 情況下的 MMHA。圖中藍(lán)色代表 FP8 KV-cache,綠色代表 INT8 KV-cache??梢钥吹?,INT8 的 MMHA kernel 在 XU pipe 上的利用率非常高,也就是所有的 kernel 運(yùn)算,都會(huì)卡在這個(gè)地方,產(chǎn)生較高的瓶頸。(這里的 XU 是做 INT8 數(shù)值轉(zhuǎn)換用到的一個(gè) pipe。)

FP8 主要用 ALU 和 FMA,bound 情況好于 INT8。所以,F(xiàn)P8 KV-cache 在數(shù)值轉(zhuǎn)換的 bound 程度相比 INT8 KV-cache 輕,所以 FP8 KV-cache MMHA 好于 INT8 KV-cache MMHA。

以上就是 FP8 在模型中的應(yīng)用場(chǎng)景、優(yōu)勢(shì)以及使用原因的簡(jiǎn)要總結(jié)和介紹。

作者:

郝尚榮 |NVIDIA 解決方案架構(gòu)師

趙一嘉 |NVIDIA 解決方案架構(gòu)師

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7345

    瀏覽量

    94988
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5678

    瀏覽量

    110073
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3808

    瀏覽量

    52239
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1385

原文標(biāo)題:TensorRT-LLM 低精度推理優(yōu)化:從速度和精度角度的 FP8 vs INT8 的全面解析

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    。我們?cè)谥暗牟┛蚚1] 中介紹了 DeepSeek-R1 模型實(shí)現(xiàn)超低推理延遲的關(guān)鍵優(yōu)化措施。本文將深入探討 TensorRT-LLM 中的 MTP 實(shí)現(xiàn)與優(yōu)化。
    的頭像 發(fā)表于 08-30 15:47 ?4637次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT-LLM</b>中的實(shí)現(xiàn)與<b class='flag-5'>優(yōu)化</b>

    TensorRT-LLM初探(一)運(yùn)行l(wèi)lama

    TensorRT-LLM正式出來(lái)有半個(gè)月了,一直沒(méi)有時(shí)間玩,周末趁著有時(shí)間跑一下。
    的頭像 發(fā)表于 11-16 17:39 ?2424次閱讀
    <b class='flag-5'>TensorRT-LLM</b>初探(一)運(yùn)行l(wèi)lama

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?2044次閱讀
    使用NVIDIA Triton和<b class='flag-5'>TensorRT-LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫(kù),可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)
    的頭像 發(fā)表于 07-04 14:38 ?2379次閱讀

    TensorRT-LLM中的分離式服務(wù)

    在之前的技術(shù)博客中,我們介紹了延遲[1] 和高吞吐[2] 場(chǎng)景的優(yōu)化方法。對(duì)于生產(chǎn)部署,用戶還關(guān)心在滿足特定延遲約束的情況下,每個(gè) GPU 的吞吐表現(xiàn)。本文將圍繞“吞吐量-延遲”性能場(chǎng)景,介紹 TensorRT-LLM 分離式
    的頭像 發(fā)表于 08-27 12:29 ?1923次閱讀
    <b class='flag-5'>TensorRT-LLM</b>中的分離式服務(wù)

    NVIDIA TensorRT 8.2將推理速度提高6倍

      TensorRT 是一款高性能的深度學(xué)習(xí)推理優(yōu)化器和運(yùn)行時(shí),為人工智能應(yīng)用程序提供延遲、高吞吐量推理
    的頭像 發(fā)表于 03-31 17:10 ?2455次閱讀

    現(xiàn)已公開發(fā)布!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語(yǔ)言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和優(yōu)化最新的大語(yǔ)言模型(Large Language Models)的推理
    的頭像 發(fā)表于 10-27 20:05 ?2186次閱讀
    現(xiàn)已公開發(fā)布!歡迎使用 NVIDIA <b class='flag-5'>TensorRT-LLM</b> <b class='flag-5'>優(yōu)化</b>大語(yǔ)言模型<b class='flag-5'>推理</b>

    點(diǎn)亮未來(lái):TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驅(qū)動(dòng)的 Windows PC 上運(yùn)行新模型

    微軟 Ignite 2023 技術(shù)大會(huì)發(fā)布的新工具和資源包括 OpenAI?Chat?API 的 TensorRT-LLM 封裝接口、RTX 驅(qū)動(dòng)的性能改進(jìn) DirectML?for?Llama?2
    的頭像 發(fā)表于 11-16 21:15 ?1642次閱讀
    點(diǎn)亮未來(lái):<b class='flag-5'>TensorRT-LLM</b> 更新加速 AI <b class='flag-5'>推理</b>性能,支持在 RTX 驅(qū)動(dòng)的 Windows PC 上運(yùn)行新模型

    NVIDIA加速微軟最新的Phi-3 Mini開源語(yǔ)言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語(yǔ)言模型。TensorRT-LLM 是一個(gè)開源庫(kù),用于優(yōu)化從 PC 到云端的 NVIDIA GPU 上運(yùn)行的大語(yǔ)言模型
    的頭像 發(fā)表于 04-28 10:36 ?1936次閱讀

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國(guó)最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語(yǔ)言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的應(yīng)用價(jià)值?!?/div>
    的頭像 發(fā)表于 08-23 15:48 ?1940次閱讀

    NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

    感謝眾多用戶及合作伙伴一直以來(lái)對(duì)NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布!
    的頭像 發(fā)表于 11-28 10:43 ?1591次閱讀
    NVIDIA <b class='flag-5'>TensorRT-LLM</b> Roadmap現(xiàn)已在GitHub上公開發(fā)布

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個(gè)專為優(yōu)化大語(yǔ)言模型 (LLM) 推理而設(shè)計(jì)的庫(kù)。它提供了多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Att
    的頭像 發(fā)表于 12-17 17:47 ?1996次閱讀

    在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡(jiǎn)稱 ReDrafter) 是蘋果公司為大語(yǔ)言模型 (LLM) 推理開發(fā)并開源的一種新型推測(cè)解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。
    的頭像 發(fā)表于 12-25 17:31 ?1613次閱讀
    在NVIDIA <b class='flag-5'>TensorRT-LLM</b>中啟用ReDrafter的一些變化

    TensorRT-LLM的大規(guī)模專家并行架構(gòu)設(shè)計(jì)

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專家并行架構(gòu)設(shè)計(jì)與創(chuàng)新實(shí)現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?1315次閱讀
    <b class='flag-5'>TensorRT-LLM</b>的大規(guī)模專家并行架構(gòu)設(shè)計(jì)

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的
    的頭像 發(fā)表于 10-21 11:04 ?1356次閱讀
    泸定县| 甘谷县| 库尔勒市| 松阳县| 桐柏县| 辽阳市| 运城市| 兰州市| 江安县| 邳州市| 岫岩| 云梦县| 彰武县| 锦屏县| 海门市| 习水县| 常州市| 千阳县| 涡阳县| 阿瓦提县| 梁山县| 巴楚县| 南汇区| 德江县| 五寨县| 登封市| 扶风县| 巴林右旗| 张家界市| 东光县| 柘荣县| 西乡县| 柏乡县| 新乡县| 米易县| 博客| 逊克县| 团风县| 通江县| 永昌县| 沧源|