哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

上海AI lab提出VideoChat:可以與視頻對話啦

深度學(xué)習(xí)自然語言處理 ? 來源:夕小瑤科技說 ? 2023-05-15 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

視頻相比語言、圖像,是更復(fù)雜更高級的一類表征世界的模態(tài),而視頻理解也同樣是相比自然語言處理與計算機視覺的常見工作更復(fù)雜的一類工作。在當(dāng)下大模型的洪流中,自然而然的想法就是大規(guī)模語言模型(LLMs)可以基于語言訓(xùn)練的強大理解推理能力,完成視頻理解的工作嗎?現(xiàn)在答案到來了,上海 AI Lab 提出了以 Chat 為中心的端到端的視頻理解系統(tǒng) VideoChat,集成了視頻基礎(chǔ)模型與 LLMs,并且在如空間、時間推理,事件定位、因果推斷等多個方面都表現(xiàn)十分出色。

01aaedc8-f2b6-11ed-90ce-dac502259ad0.png

區(qū)別于現(xiàn)有多模態(tài)大模型針對視頻輸入的處理方法,即首先文本化視頻內(nèi)容再接入大模型利用大模型自然語言理解的優(yōu)勢,這篇論文從模型角度以可學(xué)習(xí)的方式集成了視頻和語言的基礎(chǔ)模型,通過構(gòu)建視頻基礎(chǔ)模型與 LLMs 的接口,通過對接口進(jìn)行訓(xùn)練與學(xué)習(xí)從而完成視頻與語言的對齊。這樣一種方式可以有效的避免視覺信息、時空復(fù)雜性信息丟失的問題,第一次創(chuàng)立了一個高效、可學(xué)習(xí)的視頻理解系統(tǒng),可以實現(xiàn)與 VideoChat 對視頻內(nèi)容的有效交流。

論文題目:

VideoChat : Chat-Centric Video Understanding

論文鏈接:

https://arxiv.org/pdf/2305.06355.pdf

代碼地址:

https://github.com/OpenGVLab/Ask-Anything

如果要問大模型有什么樣的能力,那我們可能洋洋灑灑從理解推理到計算判斷都可以列舉許多,但是如果要問在不同場景下如何理解大模型的不同作用,那有可能就是一個頗為玄妙的“藝術(shù)”問題。在 VideoChat 中,論文作者將大模型理解為一個視頻任務(wù)的解碼器,即將視頻有關(guān)的描述或更進(jìn)一步的嵌入理解為人類可理解的文本。這一過程可以被形式化的理解為:

這里 與 表示一個圖片或視頻的模型,通過將 I(圖像) 與 V(視頻)輸入到模型中,得到視頻或圖像的嵌入表示 E,而一個解碼的過程,就是:

其中 與 分別表示在第 t 輪中 LLM 的回答和在 t 輪前用戶提出的所有問題及答案, 即一個 LLM 模型。傳統(tǒng)上針對多模態(tài)大模型的解決方法,一般是一種將視頻信息文本化的方法,通過將視頻序列化為文本,構(gòu)成 Video Description,再輸入到大模型之中,這種文本流可以很好的適應(yīng)理解類的工作,但是卻對如時間、空間感知這類任務(wù)表現(xiàn)不佳,因為幾乎是必然的,將視頻信息文本化后很容易使得這類基礎(chǔ)信息出現(xiàn)丟失。而因此論文試圖完成一個端到端的一體化的方法,直接提取視頻的嵌入信息,如下圖對比所示:

01df4532-f2b6-11ed-90ce-dac502259ad0.png

通過整合這樣兩種視頻架構(gòu),即整合 VideoChat-Text 與 VideoChat-Embed 得到的 Video Context 輸入到大模型之中,以獲得更全面的視頻信息理解能力,如在上圖的任務(wù)中,用戶提問“他是在唱、跳和 Rap 嗎”,VideoChat 回復(fù)“不是,他是在打籃球(和跳舞)”

對于 VideoChat-Text 部分,論文作者詳細(xì)的解構(gòu)了一個視頻包含的內(nèi)容,比如動作、語音、對象及帶有位置注釋的對象等等,基于這些分析,VideoChat-Text 模塊綜合利用各種視頻與圖像模型獲得這些內(nèi)容的表征,再使用 T5 整合模型輸出,得到文本化的視頻之中,使用如下圖所示的模板完成對 LLMs 的輸入:

0202b954-f2b6-11ed-90ce-dac502259ad0.png

而對于 VideoChat-Embed 則采用如下架構(gòu)將視頻和大模型與可學(xué)習(xí)的 Video-Language Token Interface(VLTF)相結(jié)合,基于 BLIP-2 和 StableVicuna 來構(gòu)建 VideoChat-Embed,具體而言,首先通過 GMHRA 輸入視頻,同時引入圖像數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練并接入一個經(jīng)過預(yù)訓(xùn)練的 Q-Former,完成視頻的 Embedding。

0227a098-f2b6-11ed-90ce-dac502259ad0.png

整個訓(xùn)練過程可以分為兩個階段,分別是對齊與微調(diào)。在對齊階段,作者引入了 25M 個視覺-文本對針對接口進(jìn)行微調(diào),整體的輸入提示如下:

023fe07c-f2b6-11ed-90ce-dac502259ad0.png

而在微調(diào)階段,論文自行構(gòu)建并開源了包含 7k 個詳細(xì)的視頻描述與圖像描述以及 4k 個視頻對話,3k 個圖像描述,2k 個圖像對話,2k 個圖像推理的指令數(shù)據(jù)集對 VideoChat 完成微調(diào)。

025616f8-f2b6-11ed-90ce-dac502259ad0.png

對比 LLaVa、miniGPT-4 以及 mPLUG-owl,論文對 VideoChat 的多方面能力進(jìn)行了定性研究。其中,在空間感知與分析中,VideoChat 可以識別日式服裝來推斷出相應(yīng)的音樂,并且確定視頻中的人數(shù)。這即是證明了 VideoChat 識別捕獲視覺元素并給予視覺元素進(jìn)行分析的能力。

02bb2cf0-f2b6-11ed-90ce-dac502259ad0.png

在時間感知與分析中,VideoChat 可以識別出視頻中做瑜伽的動作,甚至給出了它摔倒可能性的判斷并進(jìn)行提醒了安全問題。

02d2de36-f2b6-11ed-90ce-dac502259ad0.png

在非正式推斷中,VideoChat 也可以解釋“為什么這個視頻是好笑的”這一問題,并且解釋的也符合我們對視頻好笑的一些抽象判斷,如不協(xié)調(diào),突然性等等。

030494f8-f2b6-11ed-90ce-dac502259ad0.png

而對比最近的基于圖像的多模態(tài)對話系統(tǒng),VideoChat 可以正確的識別場景,而其他系統(tǒng)則錯誤的將對話環(huán)境視為室內(nèi),這充分的體現(xiàn)了 Video-Chat 在空間感知方面非常強大的比較優(yōu)勢。

032e5a04-f2b6-11ed-90ce-dac502259ad0.png

這樣一個開源的視頻理解框架可以為視頻理解這樣一個目前還沒有什么非常成熟的解決方案的問題鋪好道路,顯然,將視頻信息與文本信息對齊,大規(guī)模語音模型的優(yōu)秀能力是可以允許他們理解視頻信息。而如果將大模型看作一個有推理、理解能力的黑盒,視頻理解的問題就變成了如何對視頻進(jìn)行解碼以及與文本對齊的問題,這可以說是大模型為這一領(lǐng)域帶來的“提問方式”的改變。

但是針對我們期望的成熟的視頻理解器,這篇工作仍然具有局限性,比如 VideoChat 還是難以處理 1 分鐘以上的長視頻,當(dāng)然這主要是來自于大模型上下文長度的限制,但是在有限的上下文長度中如何更好的壓縮視頻信息也成為一個復(fù)雜的問題,當(dāng)視頻時長變長后,系統(tǒng)的響應(yīng)時間也會對用戶體驗帶來負(fù)面影響。另外總的來說,這篇論文使用的數(shù)據(jù)集仍然不算大,因此使得 VideoChat 的推理能力仍然停留在簡單推理的層級上,還無法完成復(fù)雜一點的推理工作,總之,盡管 VideoChat 還不是一個盡善盡美的解決方案,但是已然可以為當(dāng)下視頻理解系統(tǒng)增添重要一筆,讓我們期待基于它的更加成熟的工作吧!

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Video
    +關(guān)注

    關(guān)注

    0

    文章

    197

    瀏覽量

    46664
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    14026

原文標(biāo)題:上海AI lab提出VideoChat:可以與視頻對話啦

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI玩具:以多輪對話、情感陪伴等為賣點,多款方案優(yōu)化角逐

    廠商入局。實際上,針對傳統(tǒng)玩具簡單地執(zhí)行指令,生硬的聊天對話等,借助AI大模型的引入,AI玩具在多輪對話以及建立人物性格角色、情感陪伴等方面提升非常顯著。 涂鴉T5
    的頭像 發(fā)表于 04-28 00:12 ?6774次閱讀
    <b class='flag-5'>AI</b>玩具:以多輪<b class='flag-5'>對話</b>、情感陪伴等為賣點,多款方案優(yōu)化角逐

    使用NORDIC AI的好處

    原始傳感器數(shù)據(jù),可顯著降低功耗、延長電池壽命。[Edge AI 概述; Nordic Edge AI 技術(shù)頁] 降低云依賴與時延 直接在設(shè)備上做推理,很多決策可以“本地實時”完成,不必等云端響應(yīng)
    發(fā)表于 01-31 23:16

    小新AI語音互動禮盒上線!正版IP原聲對話!啟明云端樂鑫代理

    “大家好,我是野原新之助!”這句熟悉的開場白,是否瞬間把你拉回放學(xué)后守著電視機的童年午后?那個調(diào)皮搗蛋卻又溫暖人心的小新,如今跨越次元,來到你的身邊。小新AI語音互動禮盒來了!官方正版授權(quán),原聲錄制
    的頭像 發(fā)表于 01-06 18:03 ?803次閱讀
    小新<b class='flag-5'>AI</b>語音互動禮盒上線<b class='flag-5'>啦</b>!正版IP原聲<b class='flag-5'>對話</b>!啟明云端樂鑫代理

    AI教父Hinton對話云天勵飛陳寧

    ,圍繞算力效率、AI 向善與普惠未來展開了一場高密度對話。對話由硅谷著名計算機科學(xué)家、硅谷高創(chuàng)會大會主席吳軍博士主持。
    的頭像 發(fā)表于 12-03 14:04 ?843次閱讀

    拉夫勞倫攜手微軟推出對話AI應(yīng)用購物助手Ask Ralph

    拉夫·勞倫攜手微軟,推出由Microsoft Azure OpenAl(國際版)驅(qū)動的對話AI應(yīng)用購物助手“Ask Ralph”,旨在重塑數(shù)字購物體驗。該工具能理解用戶自然語言提問,提供高度個性化
    的頭像 發(fā)表于 10-13 15:45 ?835次閱讀

    對話|AI服務(wù)器電源對磁性元件提出的新需求

    編者按: 自ChatGPT、DeepSeek等大型AI模型應(yīng)用爆發(fā)以來,市場對AI服務(wù)器的需求激增,其配套電源的發(fā)展前景已成為行業(yè)共識。目前,I服務(wù)器電源企業(yè)的出貨規(guī)模仍有限,AI服務(wù)器電源廠商差距
    的頭像 發(fā)表于 10-11 14:55 ?1247次閱讀
    <b class='flag-5'>對話</b>|<b class='flag-5'>AI</b>服務(wù)器電源對磁性元件<b class='flag-5'>提出</b>的新需求

    NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南

    NVIDIA Isaac Lab 是一個適用于機器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動的物理仿真,縮小仿真與現(xiàn)實世界之間的差距。
    的頭像 發(fā)表于 09-23 17:15 ?2625次閱讀
    NVIDIA Isaac <b class='flag-5'>Lab</b>多GPU多節(jié)點訓(xùn)練指南

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學(xué)應(yīng)用

    AI被賦予了人的智能,科學(xué)家們希望在沒有人類的引導(dǎo)下,AI自主的提出科學(xué)假設(shè),諾貝爾獎級別的假設(shè)哦。 AI驅(qū)動科學(xué)被認(rèn)為是科學(xué)發(fā)現(xiàn)的第五個范式了,與實驗科學(xué)、理論科學(xué)、計算科學(xué)、數(shù)據(jù)驅(qū)
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    AI的應(yīng)用多種多樣。比如:DALL-E2、Midjourney、Stable Diffusion等,不僅包括對話功能,還包括生成圖像、視頻、語音和程序代碼等功能。 竟然連代碼都可以生成
    發(fā)表于 09-12 16:07

    AI視頻分析系統(tǒng)

    方案背景人工智能大時代背景下,視頻應(yīng)用領(lǐng)域相關(guān)的行業(yè)應(yīng)用方式已經(jīng)發(fā)生了深刻的變化,各論安防監(jiān)控還是各類垂直行業(yè)視頻應(yīng)用,都需要AI視覺分析與識別技術(shù)助力,而且需求廣泛而迫切。在應(yīng)用層面,以AI
    的頭像 發(fā)表于 08-06 14:39 ?1059次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>視頻</b>分析系統(tǒng)

    小智AI正式授權(quán)!安信可小安派語音AI開發(fā)板更新

    安信可正式推出 語音AI開發(fā)板—— AiPi-PalChatV1 為毛絨玩具、桌搭機器人、 陪伴手辦注入更有溫度的AI對話體驗! ? AiPi-PalChatV1 是一款接入了小智AI
    的頭像 發(fā)表于 07-15 15:06 ?1074次閱讀
    小智<b class='flag-5'>AI</b>正式授權(quán)!安信可小安派語音<b class='flag-5'>AI</b>開發(fā)板更新<b class='flag-5'>啦</b>

    NVIDIA Isaac Sim和Isaac Lab現(xiàn)已推出早期開發(fā)者預(yù)覽版

    NVIDIA 發(fā)布了機器人仿真參考應(yīng)用 Isaac Sim 和機器人學(xué)習(xí)框架 Isaac Lab 的開發(fā)者預(yù)覽版。開發(fā)者現(xiàn)在可以通過 GitHub 訪問早期版本,搶先體驗先進(jìn)功能,用于在基于物理的仿真環(huán)境中構(gòu)建、訓(xùn)練和測試 AI
    的頭像 發(fā)表于 07-04 14:23 ?2029次閱讀

    NVIDIA Isaac Sim 4.5.0與lsaac Lab 2.0的安裝教程

    Isaac Sim 和 Isaac Lab 目前開放下載的版本是 Isaac Sim 4.5.0 以及 Isaac Lab 2.0,本篇文章將為大家?guī)磉@兩個軟件的安裝教程。
    的頭像 發(fā)表于 06-19 15:00 ?3288次閱讀
    NVIDIA Isaac Sim 4.5.0與lsaac <b class='flag-5'>Lab</b> 2.0的安裝教程

    小智AI移植到ESP32P4-Fucntion-EV-Board實機演示

    最近參加論壇的五一活動,獲得一套小智AI的套件。當(dāng)時正好在嘗試移植小智AI到ESP32P4-Fucntion-EV-Board上。最近完成了大部分功能的移植,以及可以對話了,話說屏幕大確實是有優(yōu)勢,看著舒服,
    發(fā)表于 05-10 12:40

    簡儀科技開源測控技術(shù)走進(jìn)上海交通大學(xué)

    近日,由上海交通大學(xué)電工電子國家級實驗教學(xué)示范中心主辦的“AI + 開源工程與實驗教學(xué)教師交流會”以深度對話座談形式在交大e谷順利舉辦。簡儀科技攜手院校合作伙伴上海華用,與院校教師圍繞
    的頭像 發(fā)表于 04-27 10:01 ?948次閱讀
    唐山市| 綦江县| 景宁| 枣强县| 榆树市| 新晃| 伊吾县| 乐山市| 双峰县| 建瓯市| 长海县| 高台县| 平乐县| 永嘉县| 中西区| 武陟县| 平顺县| 百色市| 淳安县| 正宁县| 永城市| 霍城县| 惠来县| 保亭| 卢氏县| 芷江| 长乐市| 玉树县| 黄浦区| 彭州市| 宁河县| 宝丰县| 巴中市| 兴和县| 鄂州市| 淳化县| 拜泉县| 汤阴县| 宣威市| 裕民县| 吴江市|