哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

<small id="0egaw"></small>

首頁
技術

可編程邏輯

MEMS/傳感技術

嵌入式技術

模擬技術

控制/MCU

處理器/DSP

存儲技術

EMC/EMI設計

電源/新能源

測量儀表

制造/封裝

RF/無線

接口/總線/驅動

EDA/IC設計

光電顯示

連接器

PCB設計

LEDs

汽車電子

醫(yī)療電子

人工智能

可穿戴設備

軍用/航空電子

工業(yè)控制

觸控感測

智能電網(wǎng)

音視頻及家電

通信網(wǎng)絡

機器人

vr|ar|虛擬現(xiàn)實

安全設備/系統(tǒng)

移動通信

便攜設備

物聯(lián)網(wǎng)

區(qū)塊鏈

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充電樁

氮化鎵

BLDC

逆變器

5G

電機控制
資源

技術文庫

新品速遞

電路圖

元器件知識

電子百科

最新技術文章

元器件搜索引擎
下載

在線工具

常用軟件

電子書

datasheet
專欄

電子說

專欄
社區(qū)

論壇

問答

小組

技術專欄

社區(qū)之星

試用中心

HarmonyOS技術社區(qū)

2023電子工程師大會
研究院
活動

設計大賽

硬創(chuàng)大賽

社區(qū)活動

線下會議

在線研討會

小測驗
學院

直播

課程
視頻
企業(yè)號
工具

datasheet查詢

免費評測試用

技術子站

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

多模態(tài)中NLP與CV融合的方式有哪些？

最早接觸多模態(tài)是一個抖音推薦項目，有一些視頻，標題，用戶點贊收藏等信息，給用戶推薦作品，我當時在這個項目里負責用NLP部分上分，雖然最后用wide and deep 整個團隊效果還可以，但是從a/b test 看文本部分在其中起到的作用為0... ( ) 現(xiàn)在看來還是wide and deep這種方式太粗暴了（對于復雜信息的融合），本文寫寫多模態(tài)掃盲基礎和最近大家精巧的一些圖像文本融合的模型設計，主要是在VQA（視覺問答）領域，也有一個多模態(tài)QA，因為在推薦領域，你也看到了，即使NLP的貢獻為零，用戶特征足夠，效果也能做到很好了。

一. 概念掃盲

多模態(tài)（MultiModal）

多種不同的信息源（不同的信息形式）中獲取信息表達

五個挑戰(zhàn)

表示（Multimodal Representation）的意思，比如shift旋轉尺寸不變形，圖像中研究出的一種表示

表示的冗余問題

不同的信號，有的象征性信號，有波信號，什么樣的表示方式方便多模態(tài)模型提取信息

表示的方法

聯(lián)合表示將多個模態(tài)的信息一起映射到一個統(tǒng)一的多模態(tài)向量空間

協(xié)同表示負責將多模態(tài)中的每個模態(tài)分別映射到各自的表示空間，但映射后的向量之間滿足一定的相關性約束。

2. 翻譯/轉化/映射

信號的映射，比如給一個圖像，將圖像翻譯成文字，文字翻譯成圖像，信息轉化成統(tǒng)一形式后來應用

方式，這里就跟專門研究翻譯的領域是重疊，基于實例的翻譯，涉及到檢索，字典（規(guī)則）等，基于生成方法如生成翻譯的內容

3. 對齊

多模態(tài)對齊定義為從兩個或多個模態(tài)中查找實例子組件之間的關系和對應，研究不同的信號如何對齊（比如給電影，找出劇本中哪一段）

對齊方式，有專門研究對齊的領域，主要兩種，顯示對齊（比如時間維度上就是顯示對齊的），隱式對齊（比如語言的翻譯就不是位置對位置）

4. 融合

比如情感分析中語氣和語句的融合等

這個最難也是被研究最多的領域，比如音節(jié)和唇語頭像怎么融合，本筆記主要寫融合方式

二. 應用

試聽語音識別，多媒體內容檢索，視頻理解，視頻總結，事件監(jiān)測，情感分析，視頻會議情感分析，媒體描述，視覺問答等，應用其實很廣，只不過被現(xiàn)在的智能程度大大限制了，whatever, 我覺得視覺也語言的結合比純NLP，是離智能更近的一步。

三.VQA掃盲 and 常用方式

VQA（Visual Question Answering）

給定一張圖片（視頻）和一個與該圖片相關的自然語言問題，計算機能產生一個正確的回答。這是文本QA和Image Captioning的結合，一般會涉及到圖像內容上的推理，看起來更炫酷（不是指邏輯，就就指直觀感受）。

目前VQA的四大方式

Joint embedding approaches，只是直接從源頭編碼的角度開始融合信息，這也很自然的聯(lián)想到最簡單粗暴的方式就是把文本和圖像的embedding直接拼接（ps:粗暴拼接這種方式很work），Billiner Fusion 最常用了，F(xiàn)usion屆的LR

Attention mechanisms，很多VQA的問題都在attention上做文章，attention本身也是一個提取信息的動作，自從attention is all you need后，大家對attention的應用可以說是花式了，本文后面專門介紹CVPR2019的幾篇

Compositional Models，這種方式解決問題的思路是分模塊而治之，各模塊分別處理不同的功能，然后通過模塊的組裝推理得出結果

比如在[1]中，上圖，問題是What color is his tie?先選擇出 attend 和classify 模塊，并且根據(jù)推理方式組裝模塊，最后得出結論 4.Models using external knowledge base利用外部知識庫來做VQA和很好理解，QA都喜歡用知識庫，這種知識儲備一勞永逸，例如，為了回答“圖上有多少只哺乳動物”這樣的問題，模型必須得知道“哺乳動物”的定義，而你想從圖像上去學習到哺乳動物是有難度的，因此把知識庫接進來檢索是種解決方式，例如在[2]

四. 多模態(tài)中CV和NLP融合的幾種方式

1. Bilinear Fusion 雙線性融合 and Joint embedding Bilinear Fusion 雙線性融合是最常見的一種融合方式了，很多論文用這種方式做基礎結構，在CVPR2019一遍VQA多模態(tài)推理[3]中，提出的CELL就是基于這個，作者做關系推理，不僅對問題與圖片區(qū)域的交互關系建模，也對圖片區(qū)域間的聯(lián)系建模。并且推導過程是逐步逼近的過程。

作者提出的MuRel，Bilinear Fusion 將每個圖像區(qū)域特征都分別與問題文本特征融合得到多模態(tài)embedding(Joint embedding )，后者對這些embedding進行成對的關系建模。

第一部分雙線性融合，所謂雙線性簡單來講就是函數(shù)對于兩個變量都是線性的，參數(shù)（表達兩種信息關聯(lián)）是個多為矩陣，作者采用的MUTAN模型里面的Tucker decomposition方法, 將線性關系的參數(shù)分解大大減小參數(shù)量第二部分Pairwise relation學習的是經(jīng)過融合后節(jié)點之間的兩兩關系（主要是圖像的關系），然后和原始text 信息有效（粗暴）拼接最后如下圖放在網(wǎng)絡，進行迭代推理。實驗結果顯示在跟位置推斷類的問題中，這種結構表現(xiàn)比較好。

2. 花式動態(tài)attention融合這篇[4]作者更上篇一樣同時注意到了模態(tài)內和模態(tài)間的關系，即作者說的intra-modality relation（模態(tài)內部關系）和inter-modality relation（跨模態(tài)關系），但是作者更機智（個人觀點）的用了attention來做各種fusion。作者認為intra-modality relation是對inter-modality relation的補充：圖像區(qū)域不應該僅獲得來自問題文本的信息，而且需要與其他圖像區(qū)域產生關聯(lián)。模型結構是首先各自分別對圖像和文本提取特征，然后通過通過模態(tài)內部的attention建模和模態(tài)間的attention建模，這個模塊堆疊多次，最后拼接后進行分類。模態(tài)間的attention是相互的（文本對圖像，圖像對文本）,attention就是采用transform中的attention.

進行模態(tài)內關系建模的模塊是Dynamic Intra-modality Attention Flow (DyIntraMAF), 文中最大的亮點是進行了條件attention，即圖像之間的attention信心建立不應該只根據(jù)圖像，也要根據(jù)不同的具體問題而產生不同的關聯(lián)。

這種條件attention的condition設計有點類似lstm的門機制，通過加入gating機制來控制信息，下圖中圖像的self attention 就是經(jīng)過了text的門機制來過濾信息。最后作者做了很多ablation studies，達到了SOTA效果。

3. VQA對話系統(tǒng) 另外有一篇[5]個多模態(tài)的QA，這篇文章fusion 挺普通的multimodal fusion 也是普通的 billinear, 但是這個應用場景非常非常實用，我們通常用語言描述的說不清楚的時候，會有一圖勝千言語感覺，而多模態(tài)就是從這個點出發(fā)，發(fā)一張圖，like this, like that... 文中就是用這個做商業(yè)客服的QA

模型比較常規(guī)，encoder端，先CNN提取了圖片特征，然后根據(jù)商品屬性建一個屬性分類樹，文本常規(guī)處理，最后通過MFB融合

Decoder 時，文本RNNdecode, 但是圖像居然是用求cos相似，就電商那種產品數(shù)據(jù)的量級，除非在業(yè)務上做很多前置工作，這種計算量就不現(xiàn)實

In all

這篇屬于擴展NLP的廣度，寫的不深，選的論文和很隨便（因為我不很了解），作為一個NLPer，寬度上來說我覺得這也是一個方向.

原文標題：多模態(tài)中NLP與CV融合的一些方式

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

深度學習

深度學習

+關注

關注
73

文章
5607

瀏覽量
124622
MLP

MLP

+關注

關注
0

文章
57

瀏覽量
5030

原文標題：多模態(tài)中NLP與CV融合的一些方式

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

電子發(fā)燒友

My ElecFans

APP
網(wǎng)站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業(yè)應用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設備

機器人

安全設備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

產品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務

產品

資料

文章

方案

企業(yè)

供應鏈服務

硬件開發(fā)

媒體服務

網(wǎng)站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設計大賽

電子發(fā)燒友

關于我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡

微博

移動端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

張迎輝：mikezhang@elecfans.com

關注我們的微信

下載發(fā)燒友APP

機器人發(fā)燒友

版權所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區(qū)月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 電信與信息服務業(yè)務經(jīng)營許可證：湘B2-20260003 湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

师宗县| 南召县| 香格里拉县| 衡山县| 田东县| 色达县| 恩平市| 光山县| 邵武市| 阿拉善盟| 黄浦区| 集贤县| 大埔区| 贺兰县| 龙山县| 德清县| 新宾| 大竹县| 石城县| 鄂尔多斯市| 涿州市| 康马县| 武平县| 西贡区| 临澧县| 盐山县| 普安县| 牡丹江市| 葵青区| 福安市| 新营市| 慈利县| 杂多县| 吉水县| 石阡县| 友谊县| 华蓥市| 北京市| 余姚市| 丹巴县| 融水|