哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于人類視覺理解機理

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:通信信號處理研究所 ? 作者:通信信號處理研究 ? 2020-07-04 09:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,上海交通大學(xué)盧策吾團隊在《自然 - 機器智能》子刊上發(fā)表了關(guān)于高維度視覺序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

與此同時,該團隊將論文代碼與近兩年在視頻理解領(lǐng)域的先進成果開源為視頻理解工具箱 AlphaVideo。

AlphaVideo 在物體跟蹤任務(wù)(MOT)和行為理解(AVA 單模型)上都達到最高準(zhǔn)確率,相比 SlowFast (AVA 單模型)有 12.6% 的性能提升。

動作理解任務(wù)的時空信息特征圖。左:輸入序列;右:空間特征更關(guān)注物體形狀,時間特征更關(guān)注物體運動趨勢。

AlphaVideo 中的行為理解(Alphaction)

時空概念提取展示

人類視覺理解機理

在人類的視覺認(rèn)知過程中,時間和空間概念是解耦的。神經(jīng)科學(xué)領(lǐng)域的研究發(fā)現(xiàn)在人類的記憶形成過程中,時間信息與空間上下文信息通過兩個相對獨立的信息通路到達海馬體,進而形成完整的記憶。

新技能:自主學(xué)習(xí)時空概念

通過模仿人類的認(rèn)知機制,盧策吾團隊提出了應(yīng)用于高維度信息的半耦合結(jié)構(gòu)模型(SCS)。

SCS 自主發(fā)掘(awareness)時間 - 空間概念,并讓他們耦合協(xié)作以理解序列信息。這種能力代表著機器學(xué)習(xí)模型自主掌握了時空的概念,這是一種更高層的智能。更進一步,時空信息概念的分離也讓「概念編輯」成為可能。

半耦合結(jié)構(gòu)模型(SCS)

半耦合結(jié)構(gòu)首先解耦時空信息(模仿人腦中的兩條信息通路),并在分別處理時間和空間信息之后將二者耦合(模仿海馬體):

該研究通過堆疊這種半耦合的元結(jié)構(gòu)來構(gòu)建深度模型,其中時空信息始終以先解耦再融合的模式向后流動。

為了讓 h_s 和 h_t 各司其職,研究者將 h_s 和 h_t 設(shè)計為不對稱的結(jié)構(gòu),同時,使用兩個特殊的監(jiān)督目標(biāo) r_s、r_t 來進一步約束二者關(guān)注各自的工作。

該研究進一步提出了一種訓(xùn)練注意力機制。這種注意力機制控制模型在優(yōu)化過程中學(xué)習(xí)哪種信息。例如在視頻信息中,模型可以優(yōu)先將注意力集中在空間信息上,待空間信息有效且穩(wěn)定時,再逐步將模型訓(xùn)練的注意力轉(zhuǎn)換到時間信息上。

SCS 的表現(xiàn)如何?

該研究展示了 SCS 在多項任務(wù)中與傳統(tǒng) LSTM 的性能對比結(jié)果:

SCS 在視頻動作分類、自動駕駛、天氣預(yù)報等 4 個任務(wù)上的性能均超越傳統(tǒng)的序列模型。

概念編輯

有了時空分離的能力,SCS 就可以初步做到「概念編輯」。比如,通過編輯空間概念且保留時間概念,我們可以讓一個原本用于預(yù)測狗運動軌跡的模型來預(yù)測貓的軌跡。這樣就能以較小的代價實現(xiàn)模型的泛化,同時也拓寬了模型的使用場景,降低了部署難度。

概念編輯 demo

研究者讓計算機看 Flappy Bird 的視頻,然后看一張靜態(tài)的 Mario 圖片(外觀形象)。在這個過程中,模型并沒有接觸到任何 Mario 在管道中穿梭的運動信息。但通過「概念編輯」,在測試時 SCS 可以準(zhǔn)確地預(yù)測 Mario 的運動軌跡。

視頻理解工具箱 AlphaVideo

在視頻理解工具箱 AlphaVideo 中,除了上述 SCS 時空概念分解,研究者還提供了單階段端對端訓(xùn)練的多目標(biāo)跟蹤模型 TubeTK 和視頻動作檢測模型 AlphAction。使用一行代碼,即可調(diào)用預(yù)訓(xùn)好的各類模型。

AlphAction

AlphAction 是面向行為理解的開源系統(tǒng),基于 MVIG 提出的交互理解與異步訓(xùn)練策略 在 AVA 數(shù)據(jù)集上達到最優(yōu)準(zhǔn)確率,速度達到 10 幀每秒。其中包含的 15 個開源常見行為基本模型的 mAP 達到約 70%,接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 組提出的基于 Bounding-Tube 的單階段訓(xùn)練模型(CVPR2020-oral),是首個單階段端對端訓(xùn)練的多目標(biāo)跟蹤模型。它在 MOT-16 數(shù)據(jù)集上達到了 66.9 MOTA 的精度,是目前 online 模型僅在 MOT 訓(xùn)練數(shù)據(jù)下達到的最高精度

TubeTK 可視化結(jié)果

Bounding-Tube 示意圖。使用 bounding-tube 可以輕松跟蹤到 bounding-box 無法檢測到的被遮擋目標(biāo)(圖中黃色框)。
責(zé)任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解耦
    +關(guān)注

    關(guān)注

    0

    文章

    43

    瀏覽量

    12237
  • 自動駕駛
    +關(guān)注

    關(guān)注

    794

    文章

    14972

    瀏覽量

    181296
  • 機器智能
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    8943
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    人工智能多模態(tài)與視覺大模型開發(fā)實戰(zhàn) - 2026必會

    憑空出現(xiàn),其背后蘊含著深厚的理論基礎(chǔ)與復(fù)雜的架構(gòu)設(shè)計。從基礎(chǔ)原理來看,它借鑒了人類視覺系統(tǒng)的運作機制,通過模擬人眼對圖像的感知和理解過程,讓計算機能夠自動識別、分析和解讀圖像內(nèi)容。 在架構(gòu)層面,
    發(fā)表于 04-15 16:06

    智能機器人從0到1系統(tǒng)入門課程 帶源碼課件 百度網(wǎng)盤下載

    :賦予機器人空間智慧 視覺識別是機器人感知物理世界的另一只眼睛。在入門實踐中,視覺技術(shù)的應(yīng)用早已超越了簡單的物體分類,向著更復(fù)雜的空間理解和場景分析演進。 借助視覺語言模型,機器人能夠
    發(fā)表于 04-11 16:41

    論馬斯克的預(yù)言:AI使人類邊緣化

    當(dāng)?shù)貢r間3月11日,在“Abundance Summit”科技峰會上,馬斯克談及AI進展時表示,AI已經(jīng)進入自我改進階段,在超高量級AI面前,人類終將走向邊緣化。以下是對這一預(yù)言的相關(guān)分析: 預(yù)言
    發(fā)表于 03-14 05:27

    商湯科技NEO-unify如何打造原生視覺語言理解與生成

    當(dāng)前,多模態(tài)模型普遍采用“視覺編碼器(VE)用于理解,變分自編碼器(VAE)用于生成”的組合式設(shè)計。這套范式雖行之有效,卻也內(nèi)在割裂了感知與創(chuàng)造,常面臨模塊協(xié)同與效率權(quán)衡的挑戰(zhàn)。
    的頭像 發(fā)表于 03-10 14:37 ?378次閱讀
    商湯科技NEO-unify如何打造原生<b class='flag-5'>視覺</b>語言<b class='flag-5'>理解</b>與生成

    為什么光照對純視覺自動駕駛影響較大?

    在自動駕駛的技術(shù)路線中,純視覺方案因其模仿人類駕駛邏輯與低廉的硬件成本,一直是很多車企的選擇。但這種高度依賴攝像頭的感知方式,在夜幕降臨、車輛駛?cè)胗陌档乃淼?,或是遭遇強烈的逆光直射、漫天的雨雪濃霧時,感知能力會發(fā)生斷崖式下跌。為什么光照對純
    的頭像 發(fā)表于 03-09 17:06 ?963次閱讀

    機器視覺系統(tǒng)之工業(yè)相機解讀

    機器視覺系統(tǒng)是一種模擬人類視覺功能,通過光學(xué)裝置和非接觸式傳感器獲取圖像數(shù)據(jù),并進行分析和處理,以實現(xiàn)對目標(biāo)物體的識別、測量、檢測和定位等功能的智能化系統(tǒng)。其目的是讓機器能夠理解和解釋
    的頭像 發(fā)表于 02-11 17:02 ?663次閱讀
    機器<b class='flag-5'>視覺</b>系統(tǒng)之工業(yè)相機解讀

    迷人的相似之處:人類內(nèi)耳與村田MEMS傳感器

    信息。而人體內(nèi)恰好存在與這兩種設(shè)備功能相近的感知結(jié)構(gòu)。在實現(xiàn)人類任務(wù)自動化(如自動駕駛)時,理解自身傳感器的運作原理至關(guān)重要。在探討自動駕駛技術(shù)與計算機視覺之前,我
    的頭像 發(fā)表于 12-01 12:02 ?894次閱讀
    迷人的相似之處:<b class='flag-5'>人類</b>內(nèi)耳與村田MEMS傳感器

    安防監(jiān)控系統(tǒng)如何成為城市的“智慧視覺中樞”

    安防監(jiān)控系統(tǒng),曾經(jīng)只是記錄事件的“電子眼”,如今已演進為能夠理解、分析和預(yù)測的“智慧視覺中樞”。它不再僅僅回答“發(fā)生了什么”,更開始回答“正在發(fā)生什么”以及“可能發(fā)生什么”,這背后是一場從純視覺感知
    的頭像 發(fā)表于 09-30 11:18 ?508次閱讀

    集成電路制造中封裝失效的機理和分類

    隨著封裝技術(shù)向小型化、薄型化、輕量化演進,封裝缺陷對可靠性的影響愈發(fā)凸顯,為提升封裝質(zhì)量需深入探究失效機理與分析方法。
    的頭像 發(fā)表于 09-22 10:52 ?1360次閱讀
    集成電路制造中封裝失效的<b class='flag-5'>機理</b>和分類

    iTOF技術(shù),多樣化的3D視覺應(yīng)用

    視覺傳感器對于機器信息獲取至關(guān)重要,正在從二維(2D)發(fā)展到三維(3D),在某些方面模仿并超越人類視覺能力,從而推動創(chuàng)新應(yīng)用。3D 視覺解決方案大致分為立體
    發(fā)表于 09-05 07:24

    機器視覺系統(tǒng)工業(yè)相機的成像原理及如何選型

    機器視覺系統(tǒng)是一種模擬人類視覺功能,通過光學(xué)裝置和非接觸式傳感器獲取圖像數(shù)據(jù),并進行分析和處理,以實現(xiàn)對目標(biāo)物體的識別、測量、檢測和定位等功能的智能化系統(tǒng)。其目的是讓機器能夠理解和解釋
    的頭像 發(fā)表于 08-07 14:14 ?1769次閱讀
    機器<b class='flag-5'>視覺</b>系統(tǒng)工業(yè)相機的成像原理及如何選型

    勵展博覽集團與機器視覺產(chǎn)業(yè)聯(lián)盟(CMVU)關(guān)于VisionChina(深圳)達成戰(zhàn)略合作

    在全球制造業(yè)加速智能化、自動化轉(zhuǎn)型的浪潮中,機器視覺技術(shù)作為智能制造領(lǐng)域的關(guān)鍵技術(shù)之一,正成為推動產(chǎn)業(yè)升級的關(guān)鍵力量。勵展博覽集團(以下簡稱“勵展”)與機器視覺產(chǎn)業(yè)聯(lián)盟(以下簡稱“CMVU
    的頭像 發(fā)表于 07-17 16:47 ?1575次閱讀
    勵展博覽集團與機器<b class='flag-5'>視覺</b>產(chǎn)業(yè)聯(lián)盟(CMVU)<b class='flag-5'>關(guān)于</b>VisionChina(深圳)達成戰(zhàn)略合作

    一文帶你了解什么是機器視覺網(wǎng)卡

    機器視覺網(wǎng)卡通常指的是在機器視覺系統(tǒng)中用于連接工業(yè)相機到計算機的以太網(wǎng)卡。它的核心作用是實現(xiàn)高速、穩(wěn)定、低延遲的圖像數(shù)據(jù)傳輸。以下是關(guān)于機器視覺網(wǎng)卡的關(guān)鍵信息:1.核心功能:高速圖像傳
    的頭像 發(fā)表于 07-09 16:18 ?836次閱讀
    一文帶你了解什么是機器<b class='flag-5'>視覺</b>網(wǎng)卡

    車用鋰離子電池機理建模與并聯(lián)模組不一致性研究

    車用鋰離子電池機理建模與并聯(lián)模組不一致性研究
    發(fā)表于 05-16 21:02

    基于LockAI視覺識別模塊:C++圖像的基本運算

    在圖像處理中,理解圖像的基本操作是掌握計算機視覺技術(shù)的關(guān)鍵。本文章將介紹基于LockAI視覺識別模塊下OpenCV中圖像的基本運算方法,包括像素操作、邏輯運算和差值運算,并通過一個綜合示例展示其實際應(yīng)用。
    的頭像 發(fā)表于 05-06 16:20 ?804次閱讀
    基于LockAI<b class='flag-5'>視覺</b>識別模塊:C++圖像的基本運算
    游戏| 额敏县| 华坪县| 福清市| 襄城县| 桂阳县| 徐闻县| 阳谷县| 利津县| 寿光市| 勃利县| 司法| 嘉义市| 静宁县| 蒲城县| 合阳县| 揭阳市| 卫辉市| 右玉县| 丹凤县| 江陵县| 永和县| 柞水县| 莒南县| 和平区| 易门县| 洪湖市| 互助| 宣恩县| 宁河县| 仪陇县| 哈尔滨市| 化德县| 嵩明县| 延吉市| 柞水县| 仙游县| 德昌县| 交城县| 洛宁县| 甘洛县|