哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NeurIPS 2023 | 全新的自監(jiān)督視覺預(yù)訓(xùn)練代理任務(wù):DropPos

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-10-15 20:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgaomUt5x-ACdCTAAGMXym4GcM184.png

論文標(biāo)題:

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions

論文鏈接:

https://arxiv.org/pdf/2309.03576

代碼鏈接:

https://github.com/Haochen-Wang409/DropPos

今天介紹我們?cè)?/span>自監(jiān)督視覺預(yù)訓(xùn)練領(lǐng)域的一篇原創(chuàng)工作,目前 DropPos 已被 NeurIPS 2023 接收,相關(guān)代碼已開源,有任何問題歡迎在 GitHub 提出。

wKgaomUt5x-AGHoyAAAl6LOgh3c767.png

TL;DR

我們提出了一種全新的自監(jiān)督代理任務(wù) DropPos,首先在 ViT 前向過程中屏蔽掉大量的 position embeddings(PE),然后利用簡(jiǎn)單的 cross-entropy loss 訓(xùn)練模型,讓模型重建那些無 PE token 的位置信息。這個(gè)及其簡(jiǎn)單的代理任務(wù)就能在多種下游任務(wù)上取得有競(jìng)爭(zhēng)力的性能。 wKgaomUt5x-ASb1ZAAAuhh9-KLM140.png

Motivation

在 MoCo v3 的論文中有一個(gè)很有趣的現(xiàn)象:ViT 帶與不帶 position embedding,在 ImageNet 上的分類精度相差無幾。

wKgaomUt5x-AdJkaAAGHYR2BQYo430.png

▲ 表1. MoCo v3 中的實(shí)驗(yàn)現(xiàn)象(原文第6頁) 這一實(shí)驗(yàn)結(jié)果背后,隱含著「ViT 的建模主要關(guān)注于不同 patch 的 visual appearence,對(duì)于 position 的 awareness 較差」這一信息。即,如果把圖片切 patch 然后再隨機(jī)打亂之后,ViT 能夠在亂序的情況下準(zhǔn)確識(shí)別該圖片的類別。這一點(diǎn)和人類直覺有很大出入。同時(shí),有可能是因?yàn)?ViT 過擬合到了 ImageNet 這個(gè)特定數(shù)據(jù)集導(dǎo)致的。 基于此,我們首先做了一些 tiny experiments,探究 position awareness 與模型的識(shí)別準(zhǔn)確率到底是否有正相關(guān)的關(guān)系。具體來說,我們凍結(jié)了 MoCo v3 和 MAE 的 pre-train/fine-tune 權(quán)重,在其后接一個(gè)全連接層,并用 position classification 這個(gè)任務(wù)做 linear probing。即,在 forward 過程中隨機(jī)丟棄 75% 的 PE,并把 ViT 的 feature 映射到 196 維(一張圖有 14×14 個(gè) patch),期望讓最終的線性層正確分類該 patch 的位置。

wKgaomUt5yCAVVELAAEfrmu0PPI839.png

▲ 表2. Position awareness 對(duì)于下游任務(wù)的影響 表中結(jié)果表明,fine-tune 后的模型權(quán)重,更適合預(yù)測(cè)位置這一任務(wù)。說明「強(qiáng)大的對(duì)位置的建模能力,對(duì)于圖像分類任務(wù)是有益的」?;诖?,我們想探究一種能夠提升 ViT 對(duì)于位置建模能力的全新自監(jiān)督代理任務(wù)。 一種可行的方案是「簡(jiǎn)單地把 ViT 的 PE 隨機(jī)丟棄一部分,然后讓模型預(yù)測(cè)這些不帶 PE 的 token 的精確位置」,即 reconstruct Dropped Positions(DropPos)。

wKgaomUt5yCAed8gAAM-8rHKVIM341.png

▲ 圖1. DropPos 與 CL 和 MIM 的對(duì)比 DropPos 有如下的優(yōu)勢(shì):
  • 對(duì)比 CL,DropPos 不需要精心設(shè)計(jì)的數(shù)據(jù)增強(qiáng)(例如 multi-crop)。
  • 對(duì)比 MIM,DropPos 不需要精心設(shè)計(jì)的掩碼策略和重建目標(biāo)。
下面我們介紹 DropPos 的具體運(yùn)行流程。

wKgaomUt5yCAFfmtAAAtJ0fTuoM718.png

Method

wKgaomUt5yCASSQ-AAOx52KBOos108.png

▲ 圖2. DropPos 的流程圖 即使 DropPos 的想法很直觀也很簡(jiǎn)單,但這類方法一直沒有成為預(yù)訓(xùn)練的主流,主要是由于在設(shè)計(jì)上有以下三個(gè)難點(diǎn):
  1. 如果簡(jiǎn)單地把所有 PE 丟棄,讓模型直接重建每個(gè) patch 的位置,會(huì)導(dǎo)致上下游的 discrepency。因?yàn)橄掠稳蝿?wù)需要 PE,而上游預(yù)訓(xùn)練的模型又完全沒見過 PE。
  2. ViT 對(duì)于 long-range 的建模能力很強(qiáng),這個(gè)簡(jiǎn)單的位置重建任務(wù)可能沒辦法讓模型學(xué)到非常 high-level 的語義特征。
  3. 看上去相似的不同 patch(例如純色的背景)的位置無需被精準(zhǔn)重建,因此決定哪些 patch 的位置需要被重建非常關(guān)鍵。

針對(duì)上述難點(diǎn),我們提出了三個(gè)解決手段:
  1. 針對(duì)問題一,我們采用了一個(gè)簡(jiǎn)單的隨機(jī)丟棄策略。每次訓(xùn)練過程中丟棄 75% 的 PE,保留 25% 的 PE。
  2. 針對(duì)問題二,我們采取了高比例的 patch mask,既能提高代理任務(wù)的難度,又能加快訓(xùn)練的速度。
  3. 針對(duì)問題三,我們提出了 position smoothing 和 attentive reconstruction 的策略。

3.1 DropPos 前向過程

wKgaomUt5yCACzwiAAVXL_R1--s142.png

算法1. DropPos 的前向過程 DropPos 的前向過程包括兩段 mask,分別是第一步 patch mask(類似 MAE),和第二步的 position mask(用可學(xué)習(xí)的 position mask 代替 dropped positions)。具體可以參見上方的偽代碼。

3.2 Objective

我們使用了一個(gè)最簡(jiǎn)單的 cross-entropy loss 作為預(yù)訓(xùn)練的目標(biāo)函數(shù):

wKgaomUt5yCAVq8jAAA_BQl0Sc8745.png

其中,o 是模型的輸出,即第 i 個(gè) patch 的預(yù)測(cè)位置是 j 的 logit,y 是真實(shí)的位置信息。 gamma 是第一步的 patch mask ratio,N 為總 patch 數(shù)量。 是 0-1 的 position mask,1 表示該 patch 帶有 PE,不應(yīng)當(dāng)被重建,而 0 表示該 patch 不帶 PE,需要被重建。 我們接下來引入 position smoothing 和 attentive reconstruction 技術(shù)來松弛這個(gè)問題,以解決相似但不同 patch 的位置重建問題。 3.2.1 Position Smoothing 我們采用一個(gè)高斯核來平滑原本的 position targetswKgaomUt5yGAObccAAArmkbdDAM974.pngwKgaomUt5ySAW9-vAAA_rRBMW0w439.png此處,w(i, j) 表示當(dāng)真實(shí)位置為 i,而預(yù)測(cè)位置為 j 時(shí),平滑后的 position target。 此外,我們還讓 sigma 自大變小,讓模型一開始不要過分關(guān)注精確的位置重建,而訓(xùn)練后期則越來越關(guān)注于精準(zhǔn)的位置重建。 3.2.2 Attentive Reconstruction 我們采用 [CLS] token 和其他 patch 的相似度作為親和力矩陣,作為目標(biāo)函數(shù)的額外權(quán)重。wKgaomUt5ySAHMbeAAA87bNqupg699.pngwKgaomUt5ySALccxAAA4_CySCkw423.png其中 f 為不同 token 的特征,tau 為超參數(shù),控制了 affinity 的平滑程度。 wKgaomUt5ySAX1QEAAAr2pbNr48823.png

Experiments

4.1 與其他方法的對(duì)比

wKgaomUt5ySAKJNiAAR2Qt6CMIo385.pngwKgaomUt5ySAbZfnAAYLKoO_85k333.png

4.2 消融實(shí)驗(yàn)

本文主要有四個(gè)超參:patch mask ratio(gamma),position mask ratio(gamma_pos),sigma,和 tau。wKgaomUt5yWADXvuAAYb7tm27Ko423.pngwKgaomUt5yWAZ3AkAAVY4GYYZXw365.png由表,我們可以得出一些比較有趣的結(jié)論:
  1. 一般來說,更高的 position 重建精度會(huì)帶來更高的下游任務(wù)性能。
  2. 上述結(jié)論存在例外:當(dāng) sigma = 0 時(shí),即不做位置平滑時(shí),位置預(yù)測(cè)精度高,而下游任務(wù)表現(xiàn)反而低;當(dāng) tau = inf 時(shí),即不做 attentive reconstruction 時(shí),位置預(yù)測(cè)精度高,而下游表現(xiàn)反而低。
  3. 因此,過分關(guān)注于預(yù)測(cè)每一個(gè) patch 的精確的位置,會(huì)導(dǎo)致局部最優(yōu),對(duì)于下游任務(wù)不利。

wKgaomUt5yWAfIinAAc8UwSp5q0239.png

上圖是 DropPos 位置重建的可視化結(jié)果,黑色 patch 代表的是前向過程中被 mask 掉的 patch;白色 patch 的位置被錯(cuò)誤重建,而剩余 patch 的位置被精準(zhǔn)重建。 DropPos 在極端情況(例如 gamma=0.75)時(shí),依然可以做到大部分 patch 的精準(zhǔn)重建。 ·


原文標(biāo)題:NeurIPS 2023 | 全新的自監(jiān)督視覺預(yù)訓(xùn)練代理任務(wù):DropPos

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:NeurIPS 2023 | 全新的自監(jiān)督視覺預(yù)訓(xùn)練代理任務(wù):DropPos

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    人工智能多模態(tài)與視覺大模型開發(fā)實(shí)戰(zhàn) - 2026必會(huì)

    訓(xùn)練,模型可以逐漸提升對(duì)圖像的理解能力,實(shí)現(xiàn)對(duì)各種視覺任務(wù)的精準(zhǔn)處理。 此外,視覺大模型的發(fā)展還得益于大規(guī)模數(shù)據(jù)集和強(qiáng)大計(jì)算資源的支持。海量標(biāo)注數(shù)據(jù)為模型提供了豐富的學(xué)習(xí)樣本,使其能
    發(fā)表于 04-15 16:06

    NVIDIA Vera Rubin平臺(tái)開啟代理式AI前沿

    七款全新芯片全面投產(chǎn),旨在通過為 AI 各階段(從預(yù)訓(xùn)練、后訓(xùn)練、測(cè)試時(shí)擴(kuò)展,到智能體式推理)提供全面優(yōu)化的可配置 AI 基礎(chǔ)設(shè)施,擴(kuò)展全球最大 AI 工廠的規(guī)模。
    的頭像 發(fā)表于 03-18 14:30 ?537次閱讀

    數(shù)據(jù)傳輸拖慢訓(xùn)練?三維一體調(diào)度讓AI任務(wù)提速40%

    、模型三者割裂,資源調(diào)度與數(shù)據(jù)流轉(zhuǎn)不同步,訓(xùn)練任務(wù)頻繁卡頓;更無奈的是,優(yōu)化了算法、升級(jí)了硬件,卻因底層傳輸與調(diào)度低效,始終無法突破訓(xùn)練效率瓶頸。 在AI模型規(guī)模越來越大、數(shù)據(jù)量呈爆炸式增長的今天,數(shù)據(jù)傳輸與資源協(xié)同效率,早已
    的頭像 發(fā)表于 01-26 14:20 ?226次閱讀

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    、GPU加速訓(xùn)練(可選) 雙軌教學(xué):傳統(tǒng)視覺算法+深度學(xué)習(xí)方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設(shè)備集成 無監(jiān)督學(xué)習(xí):無需缺陷樣本即可訓(xùn)練高精度檢測(cè)模型 持續(xù)更新:
    發(fā)表于 12-04 09:28

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    、GPU加速訓(xùn)練(可選) 雙軌教學(xué):傳統(tǒng)視覺算法+深度學(xué)習(xí)方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設(shè)備集成 無監(jiān)督學(xué)習(xí):無需缺陷樣本即可訓(xùn)練高精度檢測(cè)模型 持續(xù)更新:
    發(fā)表于 12-03 13:50

    地平線五篇論文入選NeurIPS 2025與AAAI 2026

    近日,兩大頂級(jí)學(xué)術(shù)會(huì)議錄用結(jié)果相繼揭曉,地平線憑借在機(jī)器人算法領(lǐng)域的深度鉆研,共有5篇論文從全球數(shù)萬份投稿中脫穎而出,分別入選NeurIPS 2025與AAAI 2026。
    的頭像 發(fā)表于 11-27 11:39 ?1308次閱讀
    地平線五篇論文入選<b class='flag-5'>NeurIPS</b> 2025與AAAI 2026

    思必馳與上海交大聯(lián)合實(shí)驗(yàn)室五篇論文入選NeurIPS 2025

    近日,機(jī)器學(xué)習(xí)與計(jì)算神經(jīng)科學(xué)領(lǐng)域全球頂級(jí)學(xué)術(shù)頂級(jí)會(huì)議NeurIPS 2025公布論文錄用結(jié)果,思必馳-上海交大聯(lián)合實(shí)驗(yàn)室共有5篇論文被收錄。NeurIPS(Conference on Neural
    的頭像 發(fā)表于 10-23 15:24 ?1075次閱讀
    思必馳與上海交大聯(lián)合實(shí)驗(yàn)室五篇論文入選<b class='flag-5'>NeurIPS</b> 2025

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機(jī)器人本體和動(dòng)作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)有大規(guī)模機(jī)器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得益于近年來VR
    的頭像 發(fā)表于 08-21 09:56 ?1202次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA模型H-RDT

    信捷視覺平臺(tái)全新升級(jí)

    當(dāng)機(jī)器視覺的精準(zhǔn)遇上AI的智能,會(huì)碰撞出怎樣的火花?信捷視覺平臺(tái)全新升級(jí)——XINJE VISION STUDIO 3.7 + Vision AI算法平臺(tái)雙劍合璧,覆蓋從規(guī)則化檢測(cè)到復(fù)雜場(chǎng)景分析的全鏈路需求,助力多行業(yè)智造升級(jí)!
    的頭像 發(fā)表于 07-28 15:56 ?1017次閱讀
    信捷<b class='flag-5'>視覺</b>平臺(tái)<b class='flag-5'>全新</b>升級(jí)

    科通技術(shù)與RealSense簽署代理協(xié)議

    近日,科通技術(shù)與RealSense, Inc.正式簽署代理協(xié)議,成為其中國區(qū)代理商。此次合作標(biāo)志著雙方在3D視覺領(lǐng)域的戰(zhàn)略布局邁入新階段。
    的頭像 發(fā)表于 07-28 13:56 ?1092次閱讀

    EASY EAl Orin Nano(RK3576) whisper語音識(shí)別訓(xùn)練部署教程

    1Whisper簡(jiǎn)介Whisper是OpenAI開源的,識(shí)別語音識(shí)別能力已達(dá)到人類水準(zhǔn)自動(dòng)語音識(shí)別系統(tǒng)。Whisper作為一個(gè)通用的語音識(shí)別模型,它使用了大量的多語言和多任務(wù)監(jiān)督數(shù)據(jù)來訓(xùn)練,能夠在
    的頭像 發(fā)表于 07-25 15:21 ?974次閱讀
    EASY EAl Orin Nano(RK3576) whisper語音識(shí)別<b class='flag-5'>訓(xùn)練</b>部署教程

    EASY EAl Orin Nano(RK3576) whisper語音識(shí)別訓(xùn)練部署教程

    Whisper是OpenAI開源的,識(shí)別語音識(shí)別能力已達(dá)到人類水準(zhǔn)自動(dòng)語音識(shí)別系統(tǒng)。Whisper作為一個(gè)通用的語音識(shí)別模型,它使用了大量的多語言和多任務(wù)監(jiān)督數(shù)據(jù)來訓(xùn)練,能夠在英語語音識(shí)別上達(dá)到接近人類水平的魯棒性和準(zhǔn)確性。
    的頭像 發(fā)表于 07-17 14:55 ?1953次閱讀
    EASY EAl Orin Nano(RK3576) whisper語音識(shí)別<b class='flag-5'>訓(xùn)練</b>部署教程

    CPU密集型任務(wù)開發(fā)指導(dǎo)

    CPU密集型任務(wù)是指需要占用系統(tǒng)資源處理大量計(jì)算能力的任務(wù),需要長時(shí)間運(yùn)行,這段時(shí)間會(huì)阻塞線程其它事件的處理,不適宜放在主線程進(jìn)行。例如圖像處理、視頻編碼、數(shù)據(jù)分析等。 基于多線程并發(fā)機(jī)制處理CPU
    發(fā)表于 06-19 06:05

    避障也能預(yù)判?視覺黑科技讓掃地機(jī)器人開啟“先知”模式

    從被動(dòng)避障到主動(dòng)預(yù)判,視覺避障技術(shù)比預(yù)想的更快實(shí)現(xiàn)。
    的頭像 發(fā)表于 06-18 14:09 ?1370次閱讀

    使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)

    監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的先驗(yàn)知識(shí)。
    的頭像 發(fā)表于 05-16 14:48 ?1577次閱讀
    使用MATLAB進(jìn)行無<b class='flag-5'>監(jiān)督</b>學(xué)習(xí)
    明水县| 平阴县| 休宁县| 长垣县| 吉安市| 安平县| 白水县| 龙川县| 连江县| 台南县| 雷州市| 奉贤区| 会东县| 樟树市| 巴林左旗| 岐山县| 长岛县| 通道| 吉首市| 江华| 彭州市| 鄂伦春自治旗| 小金县| 洞头县| 甘肃省| 凤城市| 中江县| 灵寿县| 滁州市| 天全县| 天气| 莆田市| 大英县| 福海县| 河南省| 堆龙德庆县| 阳春市| 若羌县| 安达市| 石狮市| 桐柏县|