哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá):5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

半導(dǎo)體產(chǎn)業(yè)縱橫 ? 來(lái)源:量子位 ? 作者:量子位 ? 2022-12-12 15:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

IEEE計(jì)算機(jī)運(yùn)算研討會(huì)。

32位與16位格式的混合精度訓(xùn)練,正是當(dāng)前深度學(xué)習(xí)的主流。

最新的英偉達(dá)核彈GPU H100,剛剛添加上對(duì)8位浮點(diǎn)數(shù)格式FP8的支持。

英偉達(dá)首席科學(xué)家Bill Dally現(xiàn)在又表示,他們還有一個(gè)“秘密武器”:

在IEEE計(jì)算機(jī)運(yùn)算研討會(huì)上,他介紹了一種實(shí)驗(yàn)性5nm芯片,可以混合使用8位與4位格式,并且在4位上得到近似8位的精度。

目前這種芯片還在開發(fā)中,主要用于深度學(xué)習(xí)推理所用的INT4和INT8格式,對(duì)于如何應(yīng)用在訓(xùn)練中也在研究了。

相關(guān)論文已發(fā)表在2022 IEEE Symposium on VLSI Technology上。

7c5c2558-7950-11ed-8abf-dac502259ad0.png

新的量化技術(shù)

降低數(shù)字格式而不造成重大精度損失,要?dú)w功于按矢量縮放量化(per-vector scaled quantization,VSQ)的技術(shù)。

具體來(lái)說(shuō),一個(gè)INT4數(shù)字只能精確表示從-8到7的16個(gè)整數(shù)。

其他數(shù)字都會(huì)四舍五入到這16個(gè)值上,中間產(chǎn)生的精度損失被稱為量化噪聲。

傳統(tǒng)的量化方法給每個(gè)矩陣添加一個(gè)縮放因子來(lái)減少噪聲,VSQ則在這基礎(chǔ)之上給每個(gè)向量都添加縮放因子,進(jìn)一步減少噪聲。

7c8c5386-7950-11ed-8abf-dac502259ad0.png

關(guān)鍵之處在于,縮放因子的值要匹配在神經(jīng)網(wǎng)絡(luò)中實(shí)際需要表示的數(shù)字范圍。

英偉達(dá)研究人員發(fā)現(xiàn),每64個(gè)數(shù)字為一組賦予獨(dú)立調(diào)整過(guò)的縮放因子可以最小化量化誤差。

計(jì)算縮放因子的開銷可以忽略不計(jì),從INT8降為INT4則讓能量效率增加了一倍。

7cbba276-7950-11ed-8abf-dac502259ad0.png

Bill Dally認(rèn)為,結(jié)合上INT4計(jì)算、VSQ技術(shù)和其他優(yōu)化方法后,新型芯片可以達(dá)到Hopper架構(gòu)每瓦運(yùn)算速度的10倍。

還有哪些降低計(jì)算量的努力

除了英偉達(dá)之外,業(yè)界還有更多降低計(jì)算量的工作也在這次IEEE研討會(huì)上亮相。

馬德里康普頓斯大學(xué)的一組研究人員設(shè)計(jì)出基于Posits格式的處理器核心,與Float浮點(diǎn)數(shù)相比準(zhǔn)確性提高了多達(dá)4個(gè)數(shù)量級(jí)。

Posits與Float相比,增加了一個(gè)可變長(zhǎng)度的Regime區(qū)域,用來(lái)表示指數(shù)的指數(shù)。

對(duì)于0附近的較小數(shù)字只需要占用兩個(gè)位,而這類數(shù)字正是在神經(jīng)網(wǎng)絡(luò)中大量使用的。

適用Posits格式的新硬件基于FPGA開發(fā),研究人員發(fā)現(xiàn)可以用芯片的面積和功耗來(lái)提高精度,而不用增加計(jì)算時(shí)間。

7cf8a87e-7950-11ed-8abf-dac502259ad0.png

ETH Zurich一個(gè)團(tuán)隊(duì)的研究基于RISC-V,他們把兩次混合精度的積和熔加計(jì)算(fused multiply-add,F(xiàn)MA)放在一起平行計(jì)算。

這樣可以防止兩次計(jì)算之間的精度損失,還可以提高內(nèi)存利用率。

FMA指的是d = a * b + c這樣的操作,一般情況下輸入中的a和b會(huì)使用較低精度,而c和輸出的d使用較高精度。

研究人員模擬了新方法可以使計(jì)算時(shí)間減少幾乎一半,同時(shí)輸出精度有所提高,特別是對(duì)于大矢量的計(jì)算。

相應(yīng)的硬件實(shí)現(xiàn)正在開發(fā)中。

7d2a0536-7950-11ed-8abf-dac502259ad0.png

巴塞羅那超算中心英特爾團(tuán)隊(duì)的研究也和FMA相關(guān),致力于神經(jīng)網(wǎng)絡(luò)訓(xùn)練可以完全使用BF16格式完成。

BF16格式已在DALL·E 2等大型網(wǎng)絡(luò)訓(xùn)練中得到應(yīng)用,不過(guò)還需要與更高精度的FP32結(jié)合,并且在兩者之間來(lái)回轉(zhuǎn)換。

這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)訓(xùn)練中只有一部分計(jì)算不會(huì)因BF16而降低精度。

最新解決辦法開發(fā)了一個(gè)擴(kuò)展的格式BF16-N,將幾個(gè)BF16數(shù)字組合起來(lái)表示一個(gè)數(shù),可以在不顯著犧牲精度的情況下更有效進(jìn)行FMA計(jì)算

7d5cadce-7950-11ed-8abf-dac502259ad0.png

關(guān)鍵之處在于,F(xiàn)MA計(jì)算單元的面積只受尾數(shù)位影響。

比如FP32有23個(gè)尾數(shù)位,需要576個(gè)單位的面積,而BF16-2只需要192個(gè),減少了2/3。

另外這項(xiàng)工作的論文題目也很有意思,BF16 is All You Need。

7d784610-7950-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54389

    瀏覽量

    469061
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4113

    瀏覽量

    99600

原文標(biāo)題:英偉達(dá)首席科學(xué)家:5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

文章出處:【微信號(hào):ICViews,微信公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    千里通 RK3576 ARM架構(gòu)智能邊緣計(jì)算盒

    (2.2GHz) + 四核Cortex-A53 (2.0GHz) 8核異構(gòu)架構(gòu),兼顧高性能與能效比 AI算力 6TOPS INT8 NPU 支持INT4/INT8/
    的頭像 發(fā)表于 04-04 12:51 ?615次閱讀
    千里通 RK3576 ARM架構(gòu)智能邊緣計(jì)算盒

    ElfBoard新品發(fā)布|【RV1126B】ELF-RV1126B開發(fā)板正式發(fā)布

    ELF-RV1126B開發(fā)板基于瑞芯微RV1126B處理器設(shè)計(jì),集成四核ARMCortex-A53架構(gòu),主頻達(dá)1.6GHz,并內(nèi)置3TOPS@INT8算力的NPU,支持INT8/INT
    的頭像 發(fā)表于 01-16 16:59 ?3240次閱讀
    ElfBoard新品發(fā)布|【RV1126B】ELF-RV1126B開發(fā)板正式發(fā)布

    黑芝麻智能華山A2000芯片通過(guò)美國(guó)審查,正式推向全球市場(chǎng)

    智能駕駛的商業(yè)化落地提供核心算力支持。 華山A2000芯片基于7nm先進(jìn)工藝打造,集成高性能CPU、GPU、NPU及多種專用計(jì)算單元,實(shí)測(cè)性能媲美當(dāng)前全球頂尖的智駕芯片。該芯片支持全F
    的頭像 發(fā)表于 01-05 17:15 ?472次閱讀
    黑芝麻智能華山A2000<b class='flag-5'>芯片</b>通過(guò)美國(guó)審查,正式推向全球市場(chǎng)

    AI算力模組TS-SG-SM9系列產(chǎn)品規(guī)格書

    騰視科技AI算力模組TS-SG-SM9系列搭載算能高集成度處理器CV186AH/BM1688片,功耗低、算力強(qiáng)、接口豐富、兼容性好。7.2-16TOPS INT8算力,兼容INT4/INT8
    發(fā)表于 10-27 17:12 ?4次下載

    小白必讀:到底什么是FP32、FP16、INT8

    網(wǎng)上關(guān)于算力的文章,如果提到某個(gè)芯片或某個(gè)智算中心的算力,都會(huì)寫:在FP32精度下,英偉達(dá)H100的算力大約為0.9PFlops。在FP16精度
    的頭像 發(fā)表于 10-20 14:34 ?1645次閱讀
    小白必讀:到底什么是FP32、FP16、<b class='flag-5'>INT8</b>?

    英偉達(dá)下一代Rubin芯片已流片

    為進(jìn)入市場(chǎng)做準(zhǔn)備,Rubin架構(gòu)將會(huì)有6個(gè)芯片,這些芯片都已經(jīng)流片。這一消息在半導(dǎo)體和人工智能領(lǐng)域引起了廣泛關(guān)注,預(yù)示著英偉達(dá)芯片技術(shù)上的
    的頭像 發(fā)表于 09-12 17:15 ?2015次閱讀

    CCS 報(bào)錯(cuò):unkown int8_t

    我使用的是嘉立創(chuàng)天猛星(MSPM0G3507),CCS環(huán)境,原本工程里的stdint.h就有藍(lán)色波浪線警告,但是不影響debug和燒錄,今天上午也是好好地,下午突然int8_t,int16_t都用
    發(fā)表于 08-01 19:02

    雷卯針對(duì)靈眸科技RV1106G3開發(fā)板防雷防靜電方案

    ? 一、應(yīng)用場(chǎng)景 人臉識(shí)別、危險(xiǎn)駕駛、工地安全監(jiān)測(cè)、智慧餐桌 二、 功能概述 1 CPU 單核ARM Cortex-A7 32位內(nèi)核,1.2GHz集成了NEON和FPU 2 支持INT4/INT8
    的頭像 發(fā)表于 07-14 10:22 ?573次閱讀
    雷卯針對(duì)靈眸科技RV1106G3開發(fā)板防雷防靜電方案

    計(jì)算精度對(duì)比:FP64、FP32、FP16、TF32、BF16、int8

    、BF16、int8以及混合精度等。本文將淺顯易懂地介紹這些精度計(jì)算方式及其差別。什么是精度?精度,是數(shù)據(jù)表示的一個(gè)重要參數(shù),它決定了數(shù)據(jù)的
    的頭像 發(fā)表于 06-26 11:09 ?3230次閱讀
    計(jì)算<b class='flag-5'>精度</b>對(duì)比:FP64、FP32、FP16、TF32、BF16、<b class='flag-5'>int8</b>

    使用 NPU 插件對(duì)量化的 Llama 3.1 8b 模型進(jìn)行推理時(shí)出現(xiàn)“從 __Int64 轉(zhuǎn)換為無(wú)符號(hào) int 的錯(cuò)誤”,怎么解決?

    /Meta-Llama-3.1-8B --weight-format int4 --sym --group-size 128 --ratio 1.0 INT4-llama-3.1-8B 使用 NPU 插件
    發(fā)表于 06-25 07:20

    將Whisper大型v3 fp32模型轉(zhuǎn)換為較低精度后,推理時(shí)間增加,怎么解決?

    將 openai/whisper-large-v3 FP32 模型轉(zhuǎn)換為 FP16、INT8INT4。 推理所花費(fèi)的時(shí)間比在 FP32 上花費(fèi)的時(shí)間要多
    發(fā)表于 06-24 06:23

    迅為iTOP-3588S開發(fā)板核心板引腳240PIN全部引出8GB內(nèi)存32GBEMMC存儲(chǔ)

    ,8GB內(nèi)存,32GBEMMC。 四核心架構(gòu)GPU內(nèi)置GPU可以完全兼容0penGLES1.1、2.0和3.2。 內(nèi)置NPU RK3588S內(nèi)置NPU,支持INT4/INT8/INT1
    發(fā)表于 06-23 11:19

    為什么無(wú)法在GPU上使用INT8INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉(zhuǎn)換為 int 4int8,并在 GPU 上使用 OpenVINO? 運(yùn)行推理。 沒(méi)有可用的
    發(fā)表于 06-23 07:11

    迅為iTOP-3576開發(fā)板采用瑞芯微RK3576高性能、低功耗的應(yīng)用處理芯片

    計(jì)算、個(gè)人移動(dòng)互聯(lián)網(wǎng)設(shè)備及其他多媒體產(chǎn)品。 支持INT4/INT8/INT16/FP16/BF16/TF32混合運(yùn)算,并憑借其強(qiáng)大的兼容性,可以輕松轉(zhuǎn)換基于TensorFlow、MXNet
    發(fā)表于 05-20 11:15
    阿勒泰市| 揭阳市| 巴彦淖尔市| 米林县| 宜川县| 剑川县| 岳池县| 常德市| 金华市| 晋中市| 巴青县| 慈利县| 漠河县| 府谷县| 望城县| 吕梁市| 民乐县| 利津县| 基隆市| 新干县| 江华| 龙川县| 洞头县| 安西县| 赤壁市| 赤城县| 阿坝县| 泊头市| 阳春市| 东丰县| 施甸县| 兴隆县| 东兰县| 霍城县| 杨浦区| 邵东县| 巴楚县| 额济纳旗| 中方县| 商洛市| 都安|