中文字幕日韩人妻,精品亚洲精品人妻,污视频国产操

來(lái)自：哈工大SCIR

本期導(dǎo)讀：近年來(lái)研究人員在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理方向均取得了很大進(jìn)展，因此融合了二者的多模態(tài)深度學(xué)習(xí)也越來(lái)越受到關(guān)注。本期主要討論結(jié)合文本和圖像的多模態(tài)任務(wù)，將從多模態(tài)預(yù)訓(xùn)練模型中的幾個(gè)分支角度，簡(jiǎn)述文本與圖像領(lǐng)域的多模態(tài)學(xué)習(xí)有關(guān)問(wèn)題。

1. 引言

近年來(lái)，計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理方向均取得了很大進(jìn)展。而融合二者的多模態(tài)深度學(xué)習(xí)也越來(lái)越受到關(guān)注，在基于圖像和視頻的字幕生成、視覺(jué)問(wèn)答（VQA）、視覺(jué)對(duì)話、基于文本的圖像生成等方面研究成果顯著，下圖1展示了有關(guān)多模態(tài)深度學(xué)習(xí)的應(yīng)用范疇。

在這些任務(wù)中，無(wú)論是文本還是語(yǔ)音，自然語(yǔ)言都起到了幫助計(jì)算機(jī)“理解”圖像內(nèi)容的關(guān)鍵作用，這里的“理解”指的是對(duì)齊語(yǔ)言中蘊(yùn)含的語(yǔ)義特征與圖像中蘊(yùn)含的圖像特征。本文主要關(guān)注于結(jié)合文本和圖像的多模態(tài)任務(wù)，將從多模態(tài)預(yù)訓(xùn)練模型中的幾個(gè)分支來(lái)分析目前圖像與文本的多模態(tài)信息處理領(lǐng)域的有關(guān)問(wèn)題。

2. 多模態(tài)預(yù)訓(xùn)練模型

學(xué)習(xí)輸入特征的更好表示是深度學(xué)習(xí)的核心內(nèi)容。在傳統(tǒng)的NLP單模態(tài)領(lǐng)域，表示學(xué)習(xí)的發(fā)展已經(jīng)較為完善，而在多模態(tài)領(lǐng)域，由于高質(zhì)量有標(biāo)注多模態(tài)數(shù)據(jù)較少，因此人們希望能使用少樣本學(xué)習(xí)甚至零樣本學(xué)習(xí)。最近兩年出現(xiàn)了基于Transformer結(jié)構(gòu)的多模態(tài)預(yù)訓(xùn)練模型，通過(guò)海量無(wú)標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，然后使用少量有標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)即可。

多模態(tài)預(yù)訓(xùn)練模型根據(jù)信息融合的方式可分為兩大類，分別是Cross-Stream類和Single-Stream類。

（1）Cross-Stream類模型是指將不同模態(tài)的輸入分別處理之后進(jìn)行交叉融合，例如ViLBERT［1］。2019年Lu Jiasen等人將輸入的文本經(jīng)過(guò)文本Embedding層后被輸入到Transformer編碼器中提取上下文信息。

使用預(yù)訓(xùn)練Faster R-CNN生成圖片候選區(qū)域提取特征并送入圖像Embedding層，然后將獲取好的文本和圖像表示通過(guò)Co-attention-transformer模塊進(jìn)行交互融合，得到最后的表征。

（2）Single-Stream類模型將圖片、文本等不同模態(tài)的輸入一視同仁，在同一個(gè)模型進(jìn)行融合，例如VL-BERT［2］。2020年，Su Weijie等人提出了VL-BERT，它采用transformer作為主干，將視覺(jué)和語(yǔ)言嵌入特征同時(shí)輸入模型。

3. 統(tǒng)一多模態(tài)模型

在之前的模型中，單模態(tài)數(shù)據(jù)集上訓(xùn)練的模型只能做各自領(lǐng)域的任務(wù)，否則它們的表現(xiàn)會(huì)大幅下降。要想學(xué)習(xí)多模態(tài)模型必須圖文結(jié)合才行。這種多模態(tài)圖文對(duì)數(shù)據(jù)數(shù)據(jù)量少，獲取成本高。2021年，百度的Li Wei等人［3］提出的UNIMO模型，統(tǒng)一了單模態(tài)、多模態(tài)模型的訓(xùn)練方式，既可以利用海量的單模態(tài)數(shù)據(jù)，又能將多模態(tài)信號(hào)統(tǒng)一在一個(gè)語(yǔ)義空間內(nèi)促進(jìn)理解。

UNIMO的核心網(wǎng)絡(luò)是Transformer，同時(shí)為圖像和文本輸入學(xué)習(xí)統(tǒng)一的語(yǔ)義表示。圖像和文本數(shù)據(jù)分別通過(guò)預(yù)訓(xùn)練的Faster R-CNN和Bert進(jìn)行特征提取和表示，多模態(tài)圖文對(duì)數(shù)據(jù)被轉(zhuǎn)換為圖像表示序列和文本表示序列的拼接。

這三種類型數(shù)據(jù)共享模型參數(shù)，經(jīng)過(guò)多層注意力機(jī)制后得到圖像文本信息統(tǒng)一的語(yǔ)義表示，UNIMO結(jié)構(gòu)如圖4所示。其訓(xùn)練方式類似Bert，此外論文還提出了一種跨模態(tài)對(duì)比學(xué)習(xí)的新預(yù)訓(xùn)練方法。

在多模態(tài)任務(wù)上， UNIMO超過(guò)了諸如ViLBERT、VLP、UNITER、Oscar、Villa等最新的多模預(yù)訓(xùn)練模型。而且在單模態(tài)任務(wù)上也取得了不錯(cuò)的效果，如圖5（b）所示。

4. 視覺(jué)物體錨點(diǎn)模型

前面的幾個(gè)模型只是將圖像區(qū)域特征和文本特征連接起來(lái)作為輸入，并不參考任何對(duì)齊線索，利用Transformer的self-attention機(jī)制，讓模型自動(dòng)學(xué)習(xí)整張圖像和文本的語(yǔ)義對(duì)齊方式。Oscar的作者［4］提出把物體用作圖像和文本語(yǔ)義層面上的錨點(diǎn)（Anchor Point），以簡(jiǎn)化圖像和文本之間的語(yǔ)義對(duì)齊的學(xué)習(xí)任務(wù)。

使用Faster R-CNN等預(yù)訓(xùn)練物體檢測(cè)器，將圖像表示為一組圖像區(qū)域特征，每個(gè)圖像區(qū)域特征分配一個(gè)物體標(biāo)簽，同時(shí)使用預(yù)訓(xùn)練后的BERT得到物體標(biāo)簽的詞嵌入表示。

該模型在共享空間中顯式地將圖像和文本關(guān)聯(lián)在一起，物體則扮演圖像、文本語(yǔ)義對(duì)齊中錨點(diǎn)的角色。在此例中，由于視覺(jué)重疊區(qū)域，“狗”和“沙發(fā)”在圖像區(qū)域特征空間中相似，在單詞嵌入空間中有所差異。

經(jīng)過(guò)實(shí)驗(yàn)測(cè)試，該模型的性能在多個(gè)任務(wù)上已經(jīng)超過(guò)SOTA模型。下表中 SoTAS、 SoTAB、和SoTAL分別表示小規(guī)模模型、與Bert-base和Bert-large規(guī)模相近的VLP模型。OscarB和OscarL分別是基于Bert-base和Bert-large訓(xùn)練的Oscar模型。

5. 總結(jié)

目前多模態(tài)研究已經(jīng)取得了較大進(jìn)展，但如果以構(gòu)建能感知多模態(tài)信息并利用多模態(tài)信息跨越語(yǔ)義鴻溝的智能系統(tǒng)為目標(biāo)，那么現(xiàn)在的研究仍處于初級(jí)階段，既面臨著挑戰(zhàn)，也存在著機(jī)遇。在未來(lái)，多模態(tài)表示學(xué)習(xí)、多模態(tài)情感分析以及任務(wù)導(dǎo)向的大規(guī)模多模態(tài)人機(jī)交互系統(tǒng)等方向的發(fā)展值得我們關(guān)注。

Reference

［1］ Lu J ， Batra D ， Parikh D ， et al. ViLBERT： Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks［J］。 2019.

［2］ Su W ， Zhu X ， Y Cao， et al. VL-BERT： Pre-training of Generic Visual-Linguistic Representations［J］。 2019.

［3］ Li W ， Gao C ， Niu G ， et al. UNIMO： Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning［J］。 2020.

［4］ Li X ， Yin X ， Li C ， et al. Oscar： Object-Semantics Aligned Pre-training for Vision-Language Tasks［M］。 2020.

原文：李曉辰

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1096

瀏覽量
42430
計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)

+關(guān)注

關(guān)注
9

文章
1715

瀏覽量
47702
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5603

瀏覽量
124600
自然語(yǔ)言處理

自然語(yǔ)言處理

+關(guān)注

關(guān)注
1

文章
630

瀏覽量
14711

原文標(biāo)題：多模態(tài)預(yù)訓(xùn)練模型簡(jiǎn)述

文章出處：【微信號(hào)：NLP_lover，微信公眾號(hào)：自然語(yǔ)言處理愛(ài)好者】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

簡(jiǎn)述文本與圖像領(lǐng)域的多模態(tài)學(xué)習(xí)有關(guān)問(wèn)題

評(píng)論