亚洲精品一区二区91,日韩1区2区伦理

近期，上海交通大學(xué)盧策吾團隊在《自然 - 機器智能》子刊上發(fā)表了關(guān)于高維度視覺序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

與此同時，該團隊將論文代碼與近兩年在視頻理解領(lǐng)域的先進成果開源為視頻理解工具箱 AlphaVideo。

AlphaVideo 在物體跟蹤任務(wù)（MOT）和行為理解（AVA 單模型）上都達到最高準(zhǔn)確率，相比 SlowFast （AVA 單模型）有 12.6% 的性能提升。

動作理解任務(wù)的時空信息特征圖。左：輸入序列；右：空間特征更關(guān)注物體形狀，時間特征更關(guān)注物體運動趨勢。

AlphaVideo 中的行為理解（Alphaction）

時空概念提取展示

人類視覺理解機理

在人類的視覺認(rèn)知過程中，時間和空間概念是解耦的。神經(jīng)科學(xué)領(lǐng)域的研究發(fā)現(xiàn)在人類的記憶形成過程中，時間信息與空間上下文信息通過兩個相對獨立的信息通路到達海馬體，進而形成完整的記憶。

新技能：自主學(xué)習(xí)時空概念

通過模仿人類的認(rèn)知機制，盧策吾團隊提出了應(yīng)用于高維度信息的半耦合結(jié)構(gòu)模型（SCS）。

SCS 自主發(fā)掘（awareness）時間 - 空間概念，并讓他們耦合協(xié)作以理解序列信息。這種能力代表著機器學(xué)習(xí)模型自主掌握了時空的概念，這是一種更高層的智能。更進一步，時空信息概念的分離也讓「概念編輯」成為可能。

半耦合結(jié)構(gòu)模型（SCS）

半耦合結(jié)構(gòu)首先解耦時空信息（模仿人腦中的兩條信息通路），并在分別處理時間和空間信息之后將二者耦合（模仿海馬體）：

該研究通過堆疊這種半耦合的元結(jié)構(gòu)來構(gòu)建深度模型，其中時空信息始終以先解耦再融合的模式向后流動。

為了讓 h_s 和 h_t 各司其職，研究者將 h_s 和 h_t 設(shè)計為不對稱的結(jié)構(gòu)，同時，使用兩個特殊的監(jiān)督目標(biāo) r_s、r_t 來進一步約束二者關(guān)注各自的工作。

該研究進一步提出了一種訓(xùn)練注意力機制。這種注意力機制控制模型在優(yōu)化過程中學(xué)習(xí)哪種信息。例如在視頻信息中，模型可以優(yōu)先將注意力集中在空間信息上，待空間信息有效且穩(wěn)定時，再逐步將模型訓(xùn)練的注意力轉(zhuǎn)換到時間信息上。

SCS 的表現(xiàn)如何？

該研究展示了 SCS 在多項任務(wù)中與傳統(tǒng) LSTM 的性能對比結(jié)果：

SCS 在視頻動作分類、自動駕駛、天氣預(yù)報等 4 個任務(wù)上的性能均超越傳統(tǒng)的序列模型。

概念編輯

有了時空分離的能力，SCS 就可以初步做到「概念編輯」。比如，通過編輯空間概念且保留時間概念，我們可以讓一個原本用于預(yù)測狗運動軌跡的模型來預(yù)測貓的軌跡。這樣就能以較小的代價實現(xiàn)模型的泛化，同時也拓寬了模型的使用場景，降低了部署難度。

概念編輯 demo

研究者讓計算機看 Flappy Bird 的視頻，然后看一張靜態(tài)的 Mario 圖片（外觀形象）。在這個過程中，模型并沒有接觸到任何 Mario 在管道中穿梭的運動信息。但通過「概念編輯」，在測試時 SCS 可以準(zhǔn)確地預(yù)測 Mario 的運動軌跡。

視頻理解工具箱 AlphaVideo

在視頻理解工具箱 AlphaVideo 中，除了上述 SCS 時空概念分解，研究者還提供了單階段端對端訓(xùn)練的多目標(biāo)跟蹤模型 TubeTK 和視頻動作檢測模型 AlphAction。使用一行代碼，即可調(diào)用預(yù)訓(xùn)好的各類模型。

AlphAction

AlphAction 是面向行為理解的開源系統(tǒng)，基于 MVIG 提出的交互理解與異步訓(xùn)練策略在 AVA 數(shù)據(jù)集上達到最優(yōu)準(zhǔn)確率，速度達到 10 幀每秒。其中包含的 15 個開源常見行為基本模型的 mAP 達到約 70%，接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 組提出的基于 Bounding-Tube 的單階段訓(xùn)練模型（CVPR2020-oral），是首個單階段端對端訓(xùn)練的多目標(biāo)跟蹤模型。它在 MOT-16 數(shù)據(jù)集上達到了 66.9 MOTA 的精度，是目前 online 模型僅在 MOT 訓(xùn)練數(shù)據(jù)下達到的最高精度。

TubeTK 可視化結(jié)果

Bounding-Tube 示意圖。使用 bounding-tube 可以輕松跟蹤到 bounding-box 無法檢測到的被遮擋目標(biāo)（圖中黃色框）。
責(zé)任編輯:pj

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴