日韩三级伦理麻豆传媒,中文字幕九九九

在 4 月 14 日，OpenAI Five 代表人工智能拿下了與人類的競爭史上又一個里程碑：以 2 比 0 的絕對優(yōu)勢擊敗了 Dota 2 TI8 冠軍 OG 戰(zhàn)隊。其中甚至以碾壓之勢拿下第二盤，僅用 22 分鐘就“打卡下班”。比賽 4 天后，OpenAI 宣布將開放為期 3 天的 Arena 競技場模式，邀請所有 Dota 2 玩家挑戰(zhàn)OpenAI Five。

這場“人機大戰(zhàn)”的競技場于北京時間 4 月 22 日正式落幕。AI 在 Dota 2 競技場上獲得的最終成績?yōu)?7215 : 42，勝率高達 99.4%，足以看出 OG 的敗北并不是偶然事件。

相比較 8 個多月前 TI8 上的表現，我們能明顯看到 AI 的進步。比賽中有很多亮眼和極限操作，比如死血冰女果斷開大反殺兩人，家常便飯一樣的吹風/BKB 躲先手，走走停停的暗影護符卡視野等等，頂級人類玩家都未必能保證 100% 做到。

除了驚訝于 AI 的進步速度，Dota 社區(qū)有很多聲音認為 OG 只是“隨便玩玩，沒認真打”，而 OpenAI 隨后推出的競技場模式，就像是一封 AI 遞給人類的戰(zhàn)書，上書四個大字：You Can You Up。

筆者作為 Dota 老玩家，必然不能錯過這千載難逢的機會，但由于找不到足夠的人手對抗 AI，只能自己帶 4 個 AI 娛樂一下。在連輸兩局之后基本摸清了 AI 隊友的脾氣（從不聽話）和制裁 AI 的套路（隱身等于無敵），通過瘋狂帶線和毒瘤發(fā)育連贏三場“膀胱局”（指游戲時間特別長的對局），總算是勉強保住了 5000 分的尊嚴。

AI 稱霸，但人類大神達成十連勝

競技場有兩種模式，一種是五名人類玩家組隊對抗 AI，另一種是人類 + AI 的合作模式。

目前競技場已經關閉，OpenAI 還未放出詳細的比賽錄像和結果解析，不過根據排行榜數據和社區(qū)反饋，我們可以挖掘出很多關于 OpenAI Five 的特征。

值得注意的是，AI 的 99% 勝率看似恐怖，其實里面有很多“水分”，比如組隊娛樂的玩家。最有分析價值的還是人類獲勝的比賽。

排行榜顯示，在人類獲勝的 42 場比賽中，有一些來自于天梯大神隊伍，還有一些知名 Dota 2 主播的隊伍，比如 Twitch 平臺的 Waga，也有中國玩家熟悉的 OB 五人組和 Zard/天使焦/Fade/戰(zhàn)術大師 Rubick 等人。

在這些隊伍中，有一支隊長是“ainodehna”的隊伍一枝獨秀，取得了對抗 AI 的十連勝。相比之下，排名第二的隊伍僅有三連勝。

Steam 和 DotaBuff 的資料顯示，隊伍成員應該來自于俄羅斯或獨聯體地區(qū)，其中的 ainodehna 和 junior 單排天梯分都在 7000 以上，獲得了冠絕一世獎章，歐服排名分別是 294 和 227。而且他們還有電競選手資料，很可能曾經加入過職業(yè)或準職業(yè)隊伍。

熱心網友教你識破 AI 套路

即便如此，想要獲得十連勝也絕對不是一件容易的事。哪怕是兩支水平相近的人類隊伍對戰(zhàn)，也很少有這樣的連勝，他們所用的技巧因此引發(fā)了熱議。

由于這些比賽會在 Twitch 上直播，也會有人將人類勝利的視頻放到 YouTube 上，所以很快就有熱心網友在 Reddit 論壇上整理出了“如何打敗 AI”的帖子。

最開始的 1000 局比賽里，人類隊伍只贏了 3 局。但隨著時間的推移，OpenAI 的弱點逐漸暴露。就像所有游戲的 AI 一樣，如果你足夠強，擊敗 AI 總有套路可尋。

AI 的 5V5 團戰(zhàn)和遭遇戰(zhàn)都很強，但卻不擅長應對帶線和分推戰(zhàn)術，不擅長插眼和反眼，對信使的保護也很糟糕。它們在逆風局的時候大多窩在家里「打麻將」，不愛主動出擊，甚至還會頂著偷塔保護強拆兵營和基地，直到自己的高地建筑幾乎被拆光了才回家。

最致命的是，AI 非常不擅長應對隱身單位，隱身等于無敵。

圖 | 面對 AI，隱身等于無敵

于是就有了三輔助牽扯 AI 五人，兩大哥隱刀 BKB 拆家這樣的騷套路。還有網友表示，隱刺出了輝耀之后可以一直灼燒 AI 英雄，可是 AI 看不見隱刺，也不知道自己掉血的原因是輝耀隱刺在附近——人類玩家可以瞬間理解這種情況。

由此我們能夠看出，獲得了上千場勝利的 AI 似乎并未“學會”如何打 Dota，很多常識人類通過十幾局游戲就能快速掌握，但卻是AI學不明白的技巧。

AI 的強大是建立在靈活走位、反應迅速、無縫銜接技能和精準控制血量之上的“變態(tài)”微操作，它能夠依靠這些打贏遭遇戰(zhàn)和團戰(zhàn)，但是面對人類故意設下的圈套或者隱身單位，它仍然缺乏合理的推理能力。

圖 | 人類強拆兵營，AI 卻只顧中路打架

換言之，在已經大規(guī)模減少復雜度的游戲中，AI 仍然難以透過復雜的表面看到本質，比如 AI 自己控制的英雄在不斷掉血，周圍卻沒有看到敵方英雄（表面），為什么會這樣（本質）？下一步該怎么辦？

打個比方，OpenAI Five 就像一個嚴重偏科的學生，有的科目能得 120 分，有的卻只能得 20 分。獲得連勝的隊伍正是揚長避短，利用明顯的“木桶效應”不斷制裁 AI，頗有幾分田忌賽馬的感覺。

OpenAI 自己也認為，大規(guī)模的競技場測試會回答一個重要的研究問題：OpenAI Five 在多大程度上可以被人類找到漏洞，進而被反復擊敗。

向“通用人工智能技術”進軍

我們可以將這一問題擴大到整個深度學習領域，甚至是通用人工智能技術（AGI）。

簡單來說，AGI 就是和人類智能水平相似的 AI 系統(tǒng)，能夠進行感知、推理、學習、決策、行動和交流等任務，不必局限于某個應用領域，可以創(chuàng)造靈活的通用解決方案，能在很多領域替代人類。

按照 OpenAI 的愿景，今天陪人類玩游戲的 AI 系統(tǒng)，明天很可能拓展到自動化和機器人領域，有望成為AGI 的雛形。

OpenAI 本指望通過競技場為 AI 積累通用經驗，但如今可能會面臨一個數據較少的嚴峻考驗：人類只贏了 42 場，這對于動輒分析數萬場訓練數據的 AI 來說，實在是九牛一毛，它真的可以從中學到什么嗎？

圖 | OpenAI 每天的訓練量相當于玩 180 年 Dota 游戲

假設 OpenAI Five 想要變成 AGI 的雛形，那么它的學習能力就應該媲美人類。

人類有什么樣的學習能力呢？從競技場的例子可以看出，AI 一開始連贏了 500 場，但一支人類頂尖隊伍在嘗試 2 次之后就獲得了勝利，之后還獲得了連勝。

隨著人類不斷挖掘 AI 的弱點，只用了 1 天就摸清了 AI 的套路，做到了可以穩(wěn)定擊敗 AI，最后取得十連勝（這支隊伍在競技場結束之后還在直播打 OpenAI，繼續(xù)保持了連勝記錄）。

也就是說，人類整體只用了幾百場游戲、頂尖個體甚至只用了 2 場游戲，就“學會了”如何反復擊敗訓練了 4.5 萬年的 AI，兩者的學習效率差距顯而易見。

當然，在比賽的過程中，OpenAI 自身是鎖定的，不會學習，也不會改變，給了人類找到套路的機會。但這并不能改變它需要的訓練數據遠超人類的事實。

圖 | 雙大哥隱刀 BKB 拆家

從大數據到小數據

現代機器學習領域最熱門的莫過于深度學習（AlphaGo）和強化學習（OpenAI Five）等人工神經網絡。當 AI 系統(tǒng)一次次在圍棋、電子游戲、圖像識別、自然語言處理等多個應用領域追上、甚至超越人類后，很多人都在使用這些技術探索可以應用于多個領域的 AGI 的可能性。

但是，這些技術都依賴于海量數據和計算資源，比如訓練 AI 識別醫(yī)療影像，進行中英翻譯或聽懂你說的話，均需要數十萬份訓練數據才能訓練出表現出色的模型。但它們也只能在特定場景下才能使用。因此，相對于被稱之為“強人工智能”的 AGI，這類 AI 系統(tǒng)普遍被稱為“弱”或“窄人工智能”（Narrow AI）。

如果想再更進一步，進軍 AGI，首先要攻克的就是在冷門應用場景下，訓練數據稀少的問題。

目前已有類似的努力，比如“僅需”數千個數據就能生效的生成模型（Generative Models）、數據需求進一步降低至數百的遷移學習（Transfer Learning），可以從零開始的單樣本學習（one-shot learning）和自我對戰(zhàn) (Self-Play)，這都是近幾年的新興概念。

生成模型的基礎思想為“訓練算法來生成自己的訓練數據”，通過生成一個能夠抽取出基類數據的模型，根據少量的訓練數據，憑空“想”出大量的訓練數據。對于圖像來說，迄今最成功的生成模型是生成對抗網絡（GAN）。正如生成對抗網絡的發(fā)明人 Ian Goodfellow 所說的，生成模型給機器帶來了“想象力”。

但是，有些應用場景連訓練生成模型的數據都湊不夠。因此，由人類兒童學習方式啟發(fā)的遷移學習誕生了。

遷移學習是深度學習領域為了解決其海量數據需求而開發(fā)的一種手段。其基礎在于先用一個有著大量訓練數據的場景訓練模型。完成訓練后，該模型的特征將適用于所有跟這個應用場景相關或類似的具體場景。

換句話說，這個模型“學會”的特征可以被“遷移”到另外一個應用場景。比如用具有 1400 萬張照片的 ImageNet 去訓練一個圖像識別模型（通用特征），然后再訓練這個模型去具體地識別醫(yī)療成像中的腫瘤（具體應用）。

但遷移學習的基礎也限制了它的應用場景：如果一個任務的所有相關任務都缺少數據（比如打 Dota 2），就無法訓練遷移學習所需的“通用模型”（生成模型因此也不適用）。這也是將深度學習擴散到新的（少數據）應用領域時所面臨的最大挑戰(zhàn)。

在計算機視覺任務領域，為了減少對訓練數據的依賴，研究人員正在努力研發(fā)單樣本學習。單樣本，指的是借助元學習（Meta Learning）技術的支持，只用展示一張圖片或者一段演示，就可以讓 AI 認識某個物品，學會某種技能，從而具備一種“觸類旁通”的能力。

而在其他從零開始的應用場景中，AI 可以根據規(guī)則在自我對戰(zhàn)中進行學習，這也正是 OpenAI Five 和 DeepMind 的 AlphaGo Zero 所使用的技術。自我對戰(zhàn)最大的優(yōu)勢在于可以“從零開始”，在大量的對戰(zhàn)中進行優(yōu)化，用大量的計算力和訓練時間來掌握一個技能。

無論哪種方法，我們都能看出類似的趨勢：減少數據需求。但是，從 OpenAI Five 競技場的表現來看，雖然現有的技術手段能夠有效地減少對數據的依賴，卻依然無法有效地提高模型訓練的速度。

所幸，提升學習速度也是當下機器學習領域的一個大熱門?？梢灶A見的是，從 AI 到 AGI，將是一個漫長的發(fā)展歷程，而只借助少量數據就能迅速學習新技能的能力，將是發(fā)展過程中的最大難題之一。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴