哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SparseViT:以非語(yǔ)義為中心、參數(shù)高效的稀疏化視覺(jué)Transformer

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 2025-01-15 09:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景簡(jiǎn)介

隨著圖像編輯工具和圖像生成技術(shù)的快速發(fā)展,圖像處理變得非常方便。然而圖像在經(jīng)過(guò)處理后不可避免的會(huì)留下偽影(操作痕跡),這些偽影可分為語(yǔ)義和非語(yǔ)義特征。因此目前幾乎所有的圖像篡改檢測(cè)模型(IML)都遵循“語(yǔ)義分割主干網(wǎng)絡(luò)”與“精心制作的手工制作非語(yǔ)義特征提取”相結(jié)合的設(shè)計(jì),這種方法嚴(yán)重限制了模型在未知場(chǎng)景的偽影提取能力。

b60b7928-d0b2-11ef-9310-92fbcf53809c.png

論文標(biāo)題: Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer

作者單位:

四川大學(xué)(呂建成團(tuán)隊(duì)),澳門(mén)大學(xué)

論文鏈接:

https://arxiv.org/abs/2412.14598

代碼鏈接:

https://github.com/scu-zjz/SparseViT

研究?jī)?nèi)容

利用非語(yǔ)義信息往往在局部和全局之間保持一致性,同時(shí)相較于語(yǔ)義信息在圖像不同區(qū)域表現(xiàn)出更大的獨(dú)立性,SparseViT 提出了以稀疏自注意力為核心的架構(gòu),取代傳統(tǒng) Vision Transformer(ViT)的全局自注意力機(jī)制,通過(guò)稀疏計(jì)算模式,使得模型自適應(yīng)提取圖像篡改檢測(cè)中的非語(yǔ)義特征。

研究團(tuán)隊(duì)在統(tǒng)一的評(píng)估協(xié)議下復(fù)現(xiàn)并對(duì)比多個(gè)現(xiàn)有的最先進(jìn)方法,系統(tǒng)驗(yàn)證了 SparseViT 的優(yōu)越性。同時(shí),框架采用模塊化設(shè)計(jì),用戶可以靈活定制或擴(kuò)展模型的核心模塊,并通過(guò)可學(xué)習(xí)的多尺度監(jiān)督機(jī)制增強(qiáng)模型對(duì)多種場(chǎng)景的泛化能力。

此外,SparseViT 極大地降低了計(jì)算量(最高減少 80% 的 FLOPs),實(shí)現(xiàn)了參數(shù)效率與性能的兼顧,展現(xiàn)了其在多基準(zhǔn)數(shù)據(jù)集上的卓越表現(xiàn)。SparseViT 有望為圖像篡改檢測(cè)領(lǐng)域的理論與應(yīng)用研究提供新視角,為后續(xù)研究奠定基礎(chǔ)。

SparseViT 總體架構(gòu)的設(shè)計(jì)概覽圖如下所示:

b633e8ae-d0b2-11ef-9310-92fbcf53809c.png

▲ 圖1:SparseViT 總體架構(gòu)

主要的組件包含:

1. 負(fù)責(zé)高效特征捕獲的 Sparse Self-Attention

Sparse Self-Attention 是 SparseViT 框架的核心組件,專注于在減少計(jì)算復(fù)雜度的同時(shí)高效捕獲篡改圖像中的關(guān)鍵特征即非語(yǔ)義特征。傳統(tǒng)的自注意力機(jī)制由于 patch 進(jìn)行 token-to-token 的注意力計(jì)算,導(dǎo)致模型對(duì)語(yǔ)義信息過(guò)度擬合,使得非語(yǔ)義信息在受到篡改后表現(xiàn)出的局部不一致性被忽視。 為此,Sparse Self-Attention 提出了基于稀疏編碼的自注意力機(jī)制,如圖 2 所示,通過(guò)對(duì)輸入特征圖施加稀疏性約束,設(shè)輸入的特征圖 ,我們不是對(duì) 的整個(gè)特征上應(yīng)用注意力,而是將特征分成形狀為的張量塊,表示將特征圖分解為 個(gè)大小為的不重疊的張量塊,分別在這些張量塊上進(jìn)行自注意力計(jì)算。

b6460c3c-d0b2-11ef-9310-92fbcf53809c.png

▲ 圖2:稀疏自注意力

這一機(jī)制通過(guò)對(duì)特征圖進(jìn)行區(qū)域劃分,使模型在訓(xùn)練中專注于非語(yǔ)義特征的提取,提升了對(duì)圖像篡改偽影的捕捉能力。相比傳統(tǒng)自注意力,Sparse Self-Attention 減少了約 80% 的 FLOPs,同時(shí)保留了高效的特征捕獲能力,特別是在復(fù)雜場(chǎng)景中表現(xiàn)卓越。模塊化的實(shí)現(xiàn)方式還允許用戶根據(jù)需求對(duì)稀疏策略進(jìn)行調(diào)整,從而滿足不同任務(wù)的需求。

2. 負(fù)責(zé)多尺度特征融合的 Learnable Feature Fusion(LFF)

Learnable Feature Fusion(LFF)是 SparseViT 中的重要模塊,旨在通過(guò)多尺度特征融合機(jī)制提高模型的泛化能力和對(duì)復(fù)雜場(chǎng)景的適應(yīng)性。不同于傳統(tǒng)的固定規(guī)則特征融合方法,LFF 模塊通過(guò)引入可學(xué)習(xí)參數(shù),動(dòng)態(tài)調(diào)整不同尺度特征的重要性,從而增強(qiáng)了模型對(duì)圖像篡改偽影的敏感度。

LFF 通過(guò)從稀疏自注意力模塊輸出的多尺度特征中學(xué)習(xí)特定的融合權(quán)重,優(yōu)先強(qiáng)化與篡改相關(guān)的低頻特征,同時(shí)保留語(yǔ)義信息較強(qiáng)的高頻特征。模塊設(shè)計(jì)充分考慮了 IML 任務(wù)的多樣化需求,既能針對(duì)微弱的非語(yǔ)義偽影進(jìn)行細(xì)粒度處理,又能適應(yīng)大尺度的全局特征提取。

LFF 的引入顯著提升了 SparseViT 在跨場(chǎng)景、多樣化數(shù)據(jù)集上的性能,同時(shí)減少了無(wú)關(guān)特征對(duì)模型的干擾,為進(jìn)一步優(yōu)化 IML 模型性能提供了靈活的解決方案。

研究總結(jié)

簡(jiǎn)而言之,SparseViT 具有以下四個(gè)貢獻(xiàn):

1. 我們揭示了篡改圖像的語(yǔ)義特征需要連續(xù)的局部交互來(lái)構(gòu)建全局語(yǔ)義,而非語(yǔ)義特征由于其局部獨(dú)立性,可以通過(guò)稀疏編碼實(shí)現(xiàn)全局交互。

2. 基于語(yǔ)義和非語(yǔ)義特征的不同行為,我們提出使用稀疏自注意機(jī)制自適應(yīng)地從圖像中提取非語(yǔ)義特征。

3. 為了解決傳統(tǒng)多尺度融合方法的不可學(xué)習(xí)性,我們引入了一種可學(xué)習(xí)的多尺度監(jiān)督機(jī)制。

4. 我們提出的 SparseViT 在不依賴手工特征提取器的情況下保持了參數(shù)效率,并在四個(gè)公共數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的(SoTA)性能和出色的模型泛化能力。

SparseViT 通過(guò)利用語(yǔ)義特征和非語(yǔ)義特征之間的差異性,使模型能夠自適應(yīng)地提取在圖像篡改定位中更為關(guān)鍵的非語(yǔ)義特征,為篡改區(qū)域的精準(zhǔn)定位提供了全新的研究思路。

相關(guān)代碼和操作文檔、使用教程已完全開(kāi)源在 GitHub 上(https://github.com/scu-zjz/SparseViT)。該代碼有著完善的更新計(jì)劃,倉(cāng)庫(kù)將被長(zhǎng)期維護(hù),歡迎全球研究者使用和提出改進(jìn)意見(jiàn)。

SparseViT 的主要科研成員來(lái)自四川大學(xué)呂建成團(tuán)隊(duì),合作方為澳門(mén)大學(xué)潘治文教授團(tuán)隊(duì)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42428
  • IML
    IML
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    11744
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6961

原文標(biāo)題:AAAI 2025 | SparseViT:以非語(yǔ)義為中心、參數(shù)高效的稀疏化視覺(jué)Transformer

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    嵌入式視覺(jué)技術(shù)賦能工業(yè)自動(dòng)領(lǐng)域變革

    機(jī)器視覺(jué)(Machine Vision)是實(shí)現(xiàn)接觸式檢測(cè)和高度柔性生產(chǎn)的關(guān)鍵技術(shù),其主要功能可歸納識(shí)別、測(cè)量、檢測(cè)以及定位與引導(dǎo)等四類(lèi)。嵌入式視覺(jué)(Embedded Vision)
    的頭像 發(fā)表于 03-06 09:28 ?1020次閱讀
    嵌入式<b class='flag-5'>視覺(jué)</b>技術(shù)賦能工業(yè)自動(dòng)<b class='flag-5'>化</b>領(lǐng)域變革

    Transformer 入門(mén):從零理解 AI 大模型的核心原理

    /值,用搜索引擎來(lái)理解 多頭注意力 多個(gè)專家從不同角度分析 MLP 對(duì)每個(gè)詞進(jìn)行深度加工 溫度 控制輸出的隨機(jī)程度 GPT-2 參數(shù)量計(jì)算 GPT-2 (small) 例: ini 體驗(yàn)AI
    發(fā)表于 02-10 16:33

    MUN12AD05-SMFL:隔離DC/DC電源模塊的國(guó)產(chǎn)替代新選擇

    MUN12AD05-SMFL:隔離DC/DC電源模塊的國(guó)產(chǎn)替代新選擇在當(dāng)前芯片國(guó)產(chǎn)替代加速的背景下,MUN12AD05-SMFL作為Cyntec(乾坤)推出的一款高效
    發(fā)表于 01-22 10:04

    機(jī)器視覺(jué)系統(tǒng)關(guān)鍵硬件之一-工業(yè)相機(jī)(Dalsa例)

    機(jī)器視覺(jué)系統(tǒng)的硬件之一工業(yè)相機(jī)的原理及主要參數(shù)。
    的頭像 發(fā)表于 01-15 17:31 ?327次閱讀
    機(jī)器<b class='flag-5'>視覺(jué)</b>系統(tǒng)關(guān)鍵硬件之一-工業(yè)相機(jī)(<b class='flag-5'>以</b>Dalsa<b class='flag-5'>為</b>例)

    炎核開(kāi)源開(kāi)放平臺(tái)上架推出OpenSparseBlas高性能稀疏計(jì)算庫(kù)

    。該庫(kù)極致性能為核心,支持多種數(shù)據(jù)類(lèi)型,提供便捷的API調(diào)用,旨在為專業(yè)計(jì)算場(chǎng)景提供穩(wěn)定、高效稀疏運(yùn)算支撐。
    的頭像 發(fā)表于 12-15 15:18 ?941次閱讀

    數(shù)據(jù)中心配電房智能設(shè)計(jì):高效穩(wěn)定

    配電房正從傳統(tǒng)“被動(dòng)維護(hù)”模式向“主動(dòng)智能”模式轉(zhuǎn)型,數(shù)據(jù)中心提供更安全、更高效的電力支撐。智能監(jiān)控系統(tǒng):全維度狀態(tài)感知智能配電房的核心在于構(gòu)建實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)。
    的頭像 發(fā)表于 12-12 09:18 ?320次閱讀
    數(shù)據(jù)<b class='flag-5'>中心</b>配電房智能<b class='flag-5'>化</b>設(shè)計(jì):<b class='flag-5'>高效</b>穩(wěn)定

    思奧特智能機(jī)器視覺(jué)光源:筆,繪就工業(yè)檢測(cè)新圖景

    專業(yè)的研發(fā)團(tuán)隊(duì)與豐富的行業(yè)經(jīng)驗(yàn),打造出多款高性能機(jī)器視覺(jué)光源產(chǎn)品,工業(yè)檢測(cè)領(lǐng)域注入了新的活力。 一、技術(shù)突破:媒,破解檢測(cè)難題 思奧特智能機(jī)器
    的頭像 發(fā)表于 11-21 09:16 ?450次閱讀
    思奧特智能機(jī)器<b class='flag-5'>視覺(jué)</b>光源:<b class='flag-5'>以</b>光<b class='flag-5'>為</b>筆,繪就工業(yè)檢測(cè)新圖景

    自動(dòng)駕駛中如何將稀疏地圖與視覺(jué)SLAM相結(jié)合?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛場(chǎng)景中,稀疏地圖通常是由一系列關(guān)鍵幀和若干三維稀疏特征點(diǎn)構(gòu)成的地圖,每個(gè)特征點(diǎn)包含三維坐標(biāo)和描述外觀的描述子;而視覺(jué)SLAM是運(yùn)行在車(chē)輛上的實(shí)時(shí)算法,它一邊
    的頭像 發(fā)表于 10-28 09:07 ?796次閱讀
    自動(dòng)駕駛中如何將<b class='flag-5'>稀疏</b>地圖與<b class='flag-5'>視覺(jué)</b>SLAM相結(jié)合?

    機(jī)器視覺(jué)檢測(cè)PIN針

    的自動(dòng)檢測(cè)方案展現(xiàn)出了顯著優(yōu)勢(shì): 其接觸式測(cè)量避免了損傷風(fēng)險(xiǎn);高速圖像處理能力完美匹配現(xiàn)代產(chǎn)線節(jié)奏; 算法驅(qū)動(dòng)的判定機(jī)制則確保了檢測(cè)結(jié)果的極高一致性與客觀性,使其成為解決連接器Pin針高精度
    發(fā)表于 09-26 15:09

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    Transformer視覺(jué)Transformer模型。 ViTA是一種高效數(shù)據(jù)流AI加速器,用于在邊緣設(shè)備上部署計(jì)算密集型視覺(jué)
    發(fā)表于 09-12 17:30

    iTOF技術(shù),多樣的3D視覺(jué)應(yīng)用

    and 應(yīng)用場(chǎng)景, 飛行時(shí)間 (TOF) 傳感器三大三大三維傳感技術(shù)中,在不同領(lǐng)域的功能和商業(yè)場(chǎng)景的實(shí)現(xiàn)越來(lái)越多。它們用于各種專業(yè)應(yīng)用,最終用戶提供高效、安全的環(huán)境并節(jié)省勞動(dòng)力
    發(fā)表于 09-05 07:24

    睿海光電高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)

    400G/800G光模塊已實(shí)現(xiàn)規(guī)模量產(chǎn),并基于AI工廠與AI云的核心需求進(jìn)行深度優(yōu)化: 速率突破:采用PAM4調(diào)制技術(shù),單通道速率達(dá)100Gbps,整模塊實(shí)現(xiàn)800Gbps傳輸能力,GPU集群的高效協(xié)同
    發(fā)表于 08-13 19:01

    小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解

    小型數(shù)據(jù)中心的定義與應(yīng)用 小型數(shù)據(jù)中心通常是中小型企業(yè)、邊緣計(jì)算、物聯(lián)網(wǎng)(IoT)設(shè)備及其他特定業(yè)務(wù)需求提供計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)服務(wù)的設(shè)施。與大型數(shù)據(jù)中心相比,小型數(shù)據(jù)
    發(fā)表于 06-11 13:37

    奇瑞汽車(chē)整合相關(guān)業(yè)務(wù)成立智能中心

    加快推進(jìn)智能戰(zhàn)略,奇瑞汽車(chē)于近日將旗下子公司雄獅科技、大卓智能與研發(fā)總院相關(guān)業(yè)務(wù)進(jìn)行整合,統(tǒng)一成立“奇瑞智能中心”。奇瑞智能
    的頭像 發(fā)表于 06-04 15:29 ?937次閱讀

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】視覺(jué)實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    的Cartographer以其高效的子地圖管理和回環(huán)檢測(cè)能力著稱。書(shū)中通過(guò)實(shí)例演示了如何配置Cartographer的Lua參數(shù)文件,適應(yīng)不同場(chǎng)景。 在真實(shí)機(jī)器人測(cè)試中,運(yùn)動(dòng)噪聲(如輪子打滑)可能導(dǎo)致建圖漂移,因此需要
    發(fā)表于 05-03 19:41
    遵义市| 陇川县| 华容县| 九龙城区| 宁城县| 襄汾县| 深州市| 离岛区| 德昌县| 舞阳县| 齐齐哈尔市| 永定县| 台中县| 平果县| 辽阳县| 宜兰市| 绥芬河市| 哈巴河县| 军事| 泸州市| 惠安县| 久治县| 沂南县| 密云县| 连平县| 昔阳县| 郴州市| 丰都县| 长岭县| 贵港市| 边坝县| 勃利县| 凤山县| 达孜县| 华阴市| 承德市| 桐城市| 凯里市| 万全县| 望都县| 莱阳市|