哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

簡(jiǎn)述文本與圖像領(lǐng)域的多模態(tài)學(xué)習(xí)有關(guān)問(wèn)題

自然語(yǔ)言處理愛(ài)好者 ? 來(lái)源:哈工大SCIR ? 作者:李曉辰 ? 2021-08-26 16:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來(lái)自:哈工大SCIR

本期導(dǎo)讀:近年來(lái)研究人員在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理方向均取得了很大進(jìn)展,因此融合了二者的多模態(tài)深度學(xué)習(xí)也越來(lái)越受到關(guān)注。本期主要討論結(jié)合文本和圖像的多模態(tài)任務(wù),將從多模態(tài)預(yù)訓(xùn)練模型中的幾個(gè)分支角度,簡(jiǎn)述文本與圖像領(lǐng)域的多模態(tài)學(xué)習(xí)有關(guān)問(wèn)題。

1. 引言

近年來(lái),計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理方向均取得了很大進(jìn)展。而融合二者的多模態(tài)深度學(xué)習(xí)也越來(lái)越受到關(guān)注,在基于圖像和視頻的字幕生成、視覺(jué)問(wèn)答(VQA)、視覺(jué)對(duì)話、基于文本的圖像生成等方面研究成果顯著,下圖1展示了有關(guān)多模態(tài)深度學(xué)習(xí)的應(yīng)用范疇。

在這些任務(wù)中,無(wú)論是文本還是語(yǔ)音,自然語(yǔ)言都起到了幫助計(jì)算機(jī)“理解”圖像內(nèi)容的關(guān)鍵作用,這里的“理解”指的是對(duì)齊語(yǔ)言中蘊(yùn)含的語(yǔ)義特征與圖像中蘊(yùn)含的圖像特征。本文主要關(guān)注于結(jié)合文本和圖像的多模態(tài)任務(wù),將從多模態(tài)預(yù)訓(xùn)練模型中的幾個(gè)分支來(lái)分析目前圖像與文本的多模態(tài)信息處理領(lǐng)域的有關(guān)問(wèn)題。

2. 多模態(tài)預(yù)訓(xùn)練模型

學(xué)習(xí)輸入特征的更好表示是深度學(xué)習(xí)的核心內(nèi)容。在傳統(tǒng)的NLP單模態(tài)領(lǐng)域,表示學(xué)習(xí)的發(fā)展已經(jīng)較為完善,而在多模態(tài)領(lǐng)域,由于高質(zhì)量有標(biāo)注多模態(tài)數(shù)據(jù)較少,因此人們希望能使用少樣本學(xué)習(xí)甚至零樣本學(xué)習(xí)。最近兩年出現(xiàn)了基于Transformer結(jié)構(gòu)的多模態(tài)預(yù)訓(xùn)練模型,通過(guò)海量無(wú)標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后使用少量有標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)即可。

多模態(tài)預(yù)訓(xùn)練模型根據(jù)信息融合的方式可分為兩大類,分別是Cross-Stream類和Single-Stream類。

(1)Cross-Stream類模型是指將不同模態(tài)的輸入分別處理之后進(jìn)行交叉融合,例如ViLBERT[1]。2019年Lu Jiasen等人將輸入的文本經(jīng)過(guò)文本Embedding層后被輸入到Transformer編碼器中提取上下文信息。

使用預(yù)訓(xùn)練Faster R-CNN生成圖片候選區(qū)域提取特征并送入圖像Embedding層,然后將獲取好的文本和圖像表示通過(guò)Co-attention-transformer模塊進(jìn)行交互融合,得到最后的表征。

(2)Single-Stream類模型將圖片、文本等不同模態(tài)的輸入一視同仁,在同一個(gè)模型進(jìn)行融合,例如VL-BERT[2]。2020年,Su Weijie等人提出了VL-BERT,它采用transformer作為主干,將視覺(jué)和語(yǔ)言嵌入特征同時(shí)輸入模型。

3. 統(tǒng)一多模態(tài)模型

在之前的模型中,單模態(tài)數(shù)據(jù)集上訓(xùn)練的模型只能做各自領(lǐng)域的任務(wù),否則它們的表現(xiàn)會(huì)大幅下降。要想學(xué)習(xí)多模態(tài)模型必須圖文結(jié)合才行。這種多模態(tài)圖文對(duì)數(shù)據(jù)數(shù)據(jù)量少,獲取成本高。2021年,百度的Li Wei等人[3]提出的UNIMO模型,統(tǒng)一了單模態(tài)、多模態(tài)模型的訓(xùn)練方式,既可以利用海量的單模態(tài)數(shù)據(jù),又能將多模態(tài)信號(hào)統(tǒng)一在一個(gè)語(yǔ)義空間內(nèi)促進(jìn)理解。

UNIMO的核心網(wǎng)絡(luò)是Transformer,同時(shí)為圖像和文本輸入學(xué)習(xí)統(tǒng)一的語(yǔ)義表示。圖像和文本數(shù)據(jù)分別通過(guò)預(yù)訓(xùn)練的Faster R-CNN和Bert進(jìn)行特征提取和表示,多模態(tài)圖文對(duì)數(shù)據(jù)被轉(zhuǎn)換為圖像表示序列和文本表示序列的拼接。

這三種類型數(shù)據(jù)共享模型參數(shù),經(jīng)過(guò)多層注意力機(jī)制后得到圖像文本信息統(tǒng)一的語(yǔ)義表示,UNIMO結(jié)構(gòu)如圖4所示。其訓(xùn)練方式類似Bert, 此外論文還提出了一種跨模態(tài)對(duì)比學(xué)習(xí)的新預(yù)訓(xùn)練方法。

在多模態(tài)任務(wù)上, UNIMO超過(guò)了諸如ViLBERT、VLP、UNITER、Oscar、Villa等最新的多模預(yù)訓(xùn)練模型。而且在單模態(tài)任務(wù)上也取得了不錯(cuò)的效果,如圖5(b)所示。

4. 視覺(jué)物體錨點(diǎn)模型

前面的幾個(gè)模型只是將圖像區(qū)域特征和文本特征連接起來(lái)作為輸入,并不參考任何對(duì)齊線索,利用Transformer的self-attention機(jī)制,讓模型自動(dòng)學(xué)習(xí)整張圖像和文本的語(yǔ)義對(duì)齊方式。Oscar的作者[4]提出把物體用作圖像和文本語(yǔ)義層面上的錨點(diǎn)(Anchor Point),以簡(jiǎn)化圖像和文本之間的語(yǔ)義對(duì)齊的學(xué)習(xí)任務(wù)。

使用Faster R-CNN等預(yù)訓(xùn)練物體檢測(cè)器 ,將圖像表示為一組圖像區(qū)域特征,每個(gè)圖像區(qū)域特征分配一個(gè)物體標(biāo)簽,同時(shí)使用預(yù)訓(xùn)練后的BERT得到物體標(biāo)簽的詞嵌入表示。

該模型在共享空間中顯式地將圖像和文本關(guān)聯(lián)在一起,物體則扮演圖像、文本語(yǔ)義對(duì)齊中錨點(diǎn)的角色。在此例中,由于視覺(jué)重疊區(qū)域,“狗”和“沙發(fā)”在圖像區(qū)域特征空間中相似,在單詞嵌入空間中有所差異。

經(jīng)過(guò)實(shí)驗(yàn)測(cè)試,該模型的性能在多個(gè)任務(wù)上已經(jīng)超過(guò)SOTA模型。下表中 SoTAS、 SoTAB、和SoTAL分別表示小規(guī)模模型、與Bert-base和Bert-large規(guī)模相近的VLP模型。OscarB和OscarL分別是基于Bert-base和Bert-large訓(xùn)練的Oscar模型。

5. 總結(jié)

目前多模態(tài)研究已經(jīng)取得了較大進(jìn)展,但如果以構(gòu)建能感知多模態(tài)信息并利用多模態(tài)信息跨越語(yǔ)義鴻溝的智能系統(tǒng)為目標(biāo),那么現(xiàn)在的研究仍處于初級(jí)階段,既面臨著挑戰(zhàn),也存在著機(jī)遇。在未來(lái),多模態(tài)表示學(xué)習(xí)、多模態(tài)情感分析以及任務(wù)導(dǎo)向的大規(guī)模多模態(tài)人機(jī)交互系統(tǒng)等方向的發(fā)展值得我們關(guān)注。

Reference

[1] Lu J , Batra D , Parikh D , et al. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks[J]。 2019.

[2] Su W , Zhu X , Y Cao, et al. VL-BERT: Pre-training of Generic Visual-Linguistic Representations[J]。 2019.

[3] Li W , Gao C , Niu G , et al. UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning[J]。 2020.

[4] Li X , Yin X , Li C , et al. Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks[M]。 2020.

原文:李曉辰

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:多模態(tài)預(yù)訓(xùn)練模型簡(jiǎn)述

文章出處:【微信號(hào):NLP_lover,微信公眾號(hào):自然語(yǔ)言處理愛(ài)好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    ADPD4100/ADPD4101模態(tài)傳感器前端:功能特點(diǎn)與應(yīng)用解析

    ADPD4100/ADPD4101模態(tài)傳感器前端:功能特點(diǎn)與應(yīng)用解析 一、引言 在電子設(shè)計(jì)領(lǐng)域,傳感器前端的性能對(duì)整個(gè)系統(tǒng)的表現(xiàn)起著至關(guān)重要的作用。ADPD4100/ADPD4101作為
    的頭像 發(fā)表于 03-27 14:50 ?148次閱讀

    ADPD4000/ADPD4001:模態(tài)傳感器前端的卓越之選

    傳感器前端,為眾多應(yīng)用領(lǐng)域帶來(lái)了新的解決方案。本文將詳細(xì)介紹ADPD4000/ADPD4001的特性、工作原理、應(yīng)用模式以及相關(guān)寄存器配置,希望能為電子工程師們?cè)谠O(shè)計(jì)過(guò)程中提供有價(jià)值的參考。 文件下載: ADPD4000.pdf 一、產(chǎn)品特性剖析 1.1
    的頭像 發(fā)表于 03-27 14:45 ?150次閱讀

    ADPD4200 模態(tài)傳感器前端:功能、應(yīng)用與設(shè)計(jì)要點(diǎn)

    ADPD4200 模態(tài)傳感器前端:功能、應(yīng)用與設(shè)計(jì)要點(diǎn) 在當(dāng)今的電子設(shè)計(jì)領(lǐng)域,模態(tài)傳感器前端的應(yīng)用越來(lái)越廣泛,它能夠集成多種功能,滿足不
    的頭像 發(fā)表于 03-27 09:35 ?147次閱讀

    海光DCU完成Qwen3.5模態(tài)MoE模型全量適配

    近日,海光DCU完成Qwen3.5-397B MoE旗艦模態(tài)模型、Qwen3.5-35B-A3B MoE模態(tài)模型全量適配、精度對(duì)齊與推理部署驗(yàn)證。本次適配依托FlagOS專屬vLL
    的頭像 發(fā)表于 03-26 09:35 ?606次閱讀

    商湯科技正式發(fā)布并開(kāi)源全新模態(tài)模型架構(gòu)NEO

    商湯科技正式發(fā)布并開(kāi)源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新模態(tài)模型架構(gòu) —— NEO,為日日新SenseNova 模態(tài)模型奠定了新一代架構(gòu)的基石。
    的頭像 發(fā)表于 12-08 11:19 ?1136次閱讀
    商湯科技正式發(fā)布并開(kāi)源全新<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>模型架構(gòu)NEO

    格靈深瞳模態(tài)大模型Glint-ME讓圖文互搜更精準(zhǔn)

    在電商、安防等場(chǎng)景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的模態(tài)表征方法相繼提出,過(guò)去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時(shí)理解文本、
    的頭像 發(fā)表于 11-02 15:56 ?1831次閱讀
    格靈深瞳<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型Glint-ME讓圖文互搜更精準(zhǔn)

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語(yǔ)義搜索應(yīng)用打造的頂尖模態(tài)嵌入模型。該模型是首個(gè)通過(guò)單一模型支持
    的頭像 發(fā)表于 10-29 17:15 ?349次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入模型

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    細(xì)化需求,系統(tǒng)需實(shí)時(shí)調(diào)整響應(yīng)策略 1.2 輪對(duì)話系統(tǒng)鳥(niǎo)瞰:三顆“核心”協(xié)同驅(qū)動(dòng)RK3576 模態(tài)交互對(duì)話方案基于 RKLLM 的核心運(yùn)作,依賴于圖像視覺(jué)編碼器、大語(yǔ)言模型與對(duì)話管
    發(fā)表于 09-05 17:25

    淺析模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ”的關(guān)鍵工序——模態(tài)標(biāo)注重要性日益凸顯。 一、什么是模態(tài)標(biāo)注? 模態(tài)標(biāo)注是指對(duì)
    的頭像 發(fā)表于 09-05 13:49 ?2687次閱讀

    基于米爾瑞芯微RK3576開(kāi)發(fā)板的Qwen2-VL-3B模型NPU模態(tài)部署評(píng)測(cè)

    案例:支持圖像文本交互 步驟 1:環(huán)境準(zhǔn)備 步驟 2:模型的獲取、驗(yàn)證與格式轉(zhuǎn)換 步驟 3:修改代碼并交叉編譯可執(zhí)行文件并上傳到板子上 步驟 4:上傳文件到開(kāi)發(fā)板 性能測(cè)試 Tips
    發(fā)表于 08-29 18:08

    商湯科技模態(tài)通用智能戰(zhàn)略思考

    時(shí)間是最好的試金石,AI領(lǐng)域尤其如此。當(dāng)行業(yè)熱議大模型走向時(shí),商湯早已錨定“模態(tài)通用智能”——這是我們以深厚研究積累和實(shí)踐反復(fù)驗(yàn)證的可行路徑。
    的頭像 發(fā)表于 08-14 09:33 ?1290次閱讀

    飛凌嵌入式RK3576模態(tài)大模型圖像理解助手,讓嵌入式設(shè)備“看懂”世界

    (LLM)+視覺(jué)語(yǔ)言模型(VLM)模態(tài)架構(gòu),推出模態(tài)大模型圖像理解助手,為嵌入式設(shè)備打造 “智能視覺(jué)中樞”,讓終端設(shè)備能夠真正 “看懂”
    的頭像 發(fā)表于 07-25 11:09 ?1796次閱讀
    飛凌嵌入式RK3576<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型<b class='flag-5'>圖像</b>理解助手,讓嵌入式設(shè)備“看懂”世界

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式
    的頭像 發(fā)表于 06-12 10:17 ?754次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    Android Studio中的Gemini支持模態(tài)輸入功能

    的 Gemini 現(xiàn)已支持模態(tài)輸入,您可在提示中直接添加圖像!這為團(tuán)隊(duì)協(xié)作和界面開(kāi)發(fā)工作流程解鎖了更多新的可能性。
    的頭像 發(fā)表于 05-14 16:44 ?1276次閱讀

    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)模態(tài)大模型

    熟悉愛(ài)芯通元NPU的網(wǎng)友很清楚,從去年開(kāi)始我們?cè)诙藗?cè)模態(tài)大模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國(guó)內(nèi)最早開(kāi)源的模態(tài)大模MiniCPM V 2.0,上海人工智能實(shí)驗(yàn)室的書(shū)生
    的頭像 發(fā)表于 04-21 10:56 ?3654次閱讀
    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型
    喀什市| 岳阳市| 安化县| 丹江口市| 成都市| 汝城县| 白城市| 新竹市| 揭西县| 开原市| 黄龙县| 十堰市| 镇赉县| 玉门市| 武平县| 新竹市| 兴国县| 陇西县| 张家港市| 龙江县| 贵定县| 五大连池市| 南康市| 和政县| 汝阳县| 吐鲁番市| 县级市| 固安县| 景德镇市| 平乡县| 公安县| 仲巴县| 芮城县| 会昌县| 永登县| 静海县| 龙岩市| 美姑县| 碌曲县| 依安县| 济源市|