97黑人性色91久久,亚洲之色之久久色,麻豆精品久久

在每個人的童年時期，我們是如何學會記住自己家附近的路的？我們是怎樣學會自己去朋友家、學?；蛘呷バ≠u部的？在沒有地圖的情況下，我們可能只是簡單地記住了某條路長什么樣，憑記憶引導自己。慢慢地，我們逐漸熟悉了自己的日?；顒臃秶妥兊糜行判牧?，能知道自己身在何處，并且學習了新的更復雜的道路。偶爾你可能會迷路，但是憑借某個標志甚至太陽你又能找到正確的路。

在非結構化的環(huán)境中導航是智能生物的特有的功能，想要實現(xiàn)遠程導航，首先要對空間進行內部探索，然后要識別地標，同時還要有強大的視覺處理能力?；谧罱鼘⑸疃葟娀瘜W習應用于迷宮導航的研究，DeepMind的研究人員也提出了一種端到端的深度強化學習方法，他們讓智能體在真實的城市空間中導航，無需地圖，并且這種方法還能遷移到不同城市環(huán)境。

導航是一項重要的認知任務，它能讓人類和動物在沒有地圖的情況下，穿越過一片阡陌縱橫的區(qū)域。這種遠距離導航可以同時進行自我定位（我在這里）和目標表示（我要去那里）。

在Learning to Navigate in Cities Without a Map這篇論文里，我們展示了一種交互式導航環(huán)境，利用第一人稱視角的谷歌街景照片做素材，將其游戲化以訓練AI。標準的街景照片，人臉和車牌都被模糊，無法識別。我們建立了一個基于神經網絡的智能體，學習使用視覺信息在多個城市中導航。注意，這項研究關注的是一般導航，而非駕駛導航；我們沒有使用交通信息，也沒有對車輛控制進行建模。

數(shù)據(jù)來源于真實街景。從左至右分別為紐約時代廣場、中央公園和倫敦圣保羅大教堂

當智能體達到目的地時，它就會獲得獎勵（具體來說是一個經緯度坐標），就像一個沒有地圖的郵遞員，要送無數(shù)的快遞。隨著時間的發(fā)展，智能體慢慢學會了用這種方法穿越整個城市。我們同樣證明了智能體可以學習多個城市的道路，并且這種學習方法能有效遷移到新的城市中。

在沒有地圖的情況下學習導航

我們不使用傳統(tǒng)的依賴外部映射和探索的傳統(tǒng)方法，而是讓智能體學習像人類一樣導航，不用地圖、GPS定位或其他輔助工具，只用視覺觀察。我們創(chuàng)建了一個神經網絡智能體，向其中輸入在環(huán)境中觀察到的圖像，并預測它在該環(huán)境中執(zhí)行的下一項操作。我們使用深度強化學習對其進行端到端訓練，類似最近讓智能體在復雜的3D迷宮中學習導航的研究，以及用無監(jiān)督輔助方法玩游戲。與迷宮不同，我們利用真實的城市數(shù)據(jù)，例如倫敦、巴黎和紐約的復雜交叉路口、人行道、隧道和各種城市道路。此外，我們使用的方法可以遷移到不同城市，并可以優(yōu)化導航行為。

模塊化神經網絡

我們智能體的神經網絡包括三個部分：

能夠處理圖像并提取視覺特征的卷積網絡；

一個特定場所的循環(huán)神經網絡，在內部進行對環(huán)境的記憶并學習表示“這里”（智能體的當前位置）和“那里”（目標位置）；

一個位置不變的循環(huán)網絡，能夠根據(jù)智能體位置的變化進行導航。

特定場所的模塊被設計成可互換的，并且正如其名，對于每個城市都是唯一的，而視覺模塊和策略模塊是不隨著場景而變換的。

就像谷歌街景的界面一樣，智能體可以在原地打轉，也可以向前進入到下一個場景。但與谷歌地圖和街景不同的是，智能體看不到小箭頭、局部或全景地圖以及標志性的街景小人，它還需要學習區(qū)分開放道路和人行道。目的地可能是幾公里以外的地方，智能體需要搜索幾百個全景圖才能到達。

我們證明了這種方法能提供一種機制，將導航知識遷移到新城市中。和人類一樣，當智能體來到一個新城市，我們會希望它學習一組新的地標，但不必重新學習它的視覺表現(xiàn)或行為（例如，沿著街道向前縮放，或者在交叉路口轉向）。因此，使用MultiCity架構，我們在許多城市進行首次訓練，然后凍結策略網絡和視覺卷積網絡，并在一個新城市中建立唯一一個新的特定地區(qū)路徑。這種方法讓智能體在獲取新知識的同時不忘之前學到的東西，類似漸進式神經網絡架構。