自動虛擬程序與人類玩家并肩作戰(zhàn)玩游戲 AI在游戲中虐哭人類！

發(fā)布時間：2019-06-04 16:40:57 來源：網(wǎng)易智能責任編輯：caobo

【網(wǎng)易智能訊6月4日消息】

“奪旗”既是一款兒童在夏令營活動上常玩的一款游戲，也是《雷神之錘3》(Quake III)和《守望先鋒》(Overwatch)等熱門游戲的一部分。

不管它作為兒童的夏令營游戲還是電子游戲，它都是一項團隊運動。每一方都守衛(wèi)著一面旗幟，同時也在計劃奪取另一方的旗幟并將其帶回基地。贏得比賽需要良好的傳統(tǒng)團隊合作，并且在防守和進攻之間取得協(xié)調(diào)平衡。

換句話說，“奪旗”這一游戲需要一系列看起來非常人性化的技能。但倫敦人工智能實驗室的研究人員表示，至少在虛擬世界中，機器也能掌握這款游戲。

在周四發(fā)表在《科學》(Science)雜志上的一篇論文中，研究人員的報告稱，他們設計了一種自動虛擬程序，當玩家在《雷神之震3》中玩“奪旗”(capture the flag)游戲模式時，該程序會表現(xiàn)出類似人類的行為。這些程序能夠與人類玩家組隊，與人類玩家并肩作戰(zhàn)，從而相應地調(diào)整它們的行為。

與谷歌同屬一家母公司的DeepMind實驗室的研究員沃伊切赫·扎爾內(nèi)基(Wojciech Czarnecki)說：“這些程序可以適應具有任意技能的隊友。”

通過數(shù)千小時的比賽，這些虛擬程序?qū)W會了非常特殊的技能。比如當隊友快要抓到一面旗子時，它們會沖向敵方的大本營。正如人類玩家所知道的，當對方的旗幟被帶到自己的基地時，新的旗幟就會出現(xiàn)在對方的基地，等待著玩家們?nèi)Z取。

DeepMind的項目是構建人工智能的廣泛努力的一部分，這種人工智能可以玩極其復雜的三維視頻游戲，包括《雷神之錘3》、《Dota 2》和《星際爭霸2》。許多研究人員認為，虛擬領域的成功最終將改進現(xiàn)實世界中的自動化系統(tǒng)。

例如，這些技能可以讓倉庫機器人受益，因為它們可以通過團隊合作把貨物從一個地方搬到另一個地方，或者幫助自動駕駛汽車在擁擠的交通中進行集體導航。“游戲一直是人工智能的基準，”位于舊金山的OpenAI實驗室負責類似研究的格雷格·布羅克曼(Greg Brockman)說。“如果你不能用人工智能解決游戲中的難題，你就不能指望解決任何其他問題。”

就算在現(xiàn)在，在像《雷神之錘3》這樣的游戲中建立一個能夠與人類玩家相匹配的人工智能系統(tǒng)似乎還是不可能的。但在過去幾年里，DeepMind、OpenAI和其他實驗室取得了重大進展，這要歸功于一種名為“強化學習”的數(shù)學技術，這種技術允許機器通過反復試驗來學習任務。

通過一遍又一遍地玩游戲，一個自動化的程序可以學習哪些策略能帶來成功，哪些不能。如果這個程序在隊友準備奪取一面旗子時向?qū)κ值幕匾苿樱軌虿粩嗟刳A得更多的分數(shù)的話，那么該程序就會把這種戰(zhàn)術添加到自己的算法庫中。

2016年，DeepMind的研究人員使用同樣的基本技術，建立了一個系統(tǒng)，讓人工智能可以在圍棋中擊敗世界頂級棋手。許多專家曾認為，考慮到《雷神之錘3》的巨大復雜性，讓人工智能在這一游戲中擊敗對手這一目標要再過10年才能實現(xiàn)。

第一人稱的自主電子游戲要復雜得多，尤其是當它們涉及到隊友之間的協(xié)調(diào)時。DeepMind的程序需要通過玩大約45萬回合才能學會如何奪取這面旗幟，他們在數(shù)周的訓練中積累了大約人類四年的游戲經(jīng)驗。起初，程序們慘敗。但他們逐漸學會了游戲的微妙之處，比如當隊友突襲對手的大本營時，它們知道該如何輔助隊友。

自從完成這個項目后，DeepMind的研究人員還設計了另外一個系統(tǒng)，可以打敗一款以太空為背景的戰(zhàn)略游戲《星際爭霸2》(StarCraft II)中的專業(yè)玩家。在OpenAI，研究人員建立了一個系統(tǒng)，可以控制《Dota2》，這款游戲就像“奪旗”的升級版。今年4月，一支由5個虛擬的人工智能程序組成的隊伍擊敗了一支由5名世界上最優(yōu)秀的人類玩家組成的隊伍。

去年，有“閃電戰(zhàn)”之稱的職業(yè)Dota 2玩家兼評論員威廉·李(William Lee)與一種早期版本的人工智能打了一場比賽，這一人工智能程序只能進行一對一的比賽，打不了團隊比賽，因此威廉·李對此并不感興趣。但隨著這些程序的深入學習，威廉·李開始慢慢地被這些虛擬的程序所震撼到了。

“我認為這臺機器不可能打出五人團體戰(zhàn)，更不用說贏了，”他說。“但是我完全驚呆了。”

盡管這類技術讓許多游戲玩家感到驚訝與佩服，但許多人工智能專家質(zhì)疑它最終能否解決現(xiàn)實問題。專門研究人工智能的佐治亞理工學院(Georgia Tech College of Computing)教授馬克·里德爾(Mark Riedl)說，DeepMind的虛擬程序?qū)嶋H上并沒有團隊中的合作，它們只是對游戲中發(fā)生的事情做出反應，而不是像人類玩家那樣彼此交換信息。(即使只是螞蟻也可以通過交換化學信號來合作。)

雖然結(jié)果看起來像是團隊合作，但這些程序之所以能夠?qū)崿F(xiàn)這一點，是因為它們能夠獨立地完全理解游戲中所發(fā)生的一切。

“如何定義團隊合作不是我想解決的問題，”DeepMind的另一位研究人員馬克斯·加德伯格(Max Jaderberg)說。“但只有在依靠隊友的情況下，才有可能有一位虛擬“玩家”出現(xiàn)在對手的大本營里，伺機奪取旗幟”

這樣的游戲并不像現(xiàn)實世界那么復雜。“三維環(huán)境的設計是為了讓導航變得容易，”里德博士說。“《雷神之錘》的策略和協(xié)調(diào)很簡單。”

強化學習非常適合這種游戲。在電子游戲中，程序能夠很容易就確定成功的衡量標準——更多的分數(shù)。(在“奪旗這一游戲”中，玩家根據(jù)奪旗數(shù)量獲得點數(shù)。)但在現(xiàn)實世界中，沒有人記分。研究人員必須用其他方式來定義成功。

這是可以做到的，至少在簡單的任務上是沒問題的。在OpenAI，研究人員已經(jīng)訓練了一只機械手，可以像孩子一樣擺弄字母塊。如果你告訴這只機械手展示字母A，它就會拿起字母A的方塊。

在谷歌機器人實驗室，研究人員已經(jīng)證明，機器人可以學會撿起隨機的物品，比如乒乓球和塑料香蕉，然后把它們?nèi)拥綆子⒊咄獾睦淅铩＿@種技術可以幫助亞馬遜(Amazon)、聯(lián)邦快遞(FedEx)等公司運營的大型倉庫和配送中心對物品進行分類。如今這些任務仍然是由人工處理的。

當像DeepMind和OpenAI這樣的實驗室處理更大的問題時，他們可能開始需要非常大的計算能力。OpenAI的系統(tǒng)在幾個月的時間里(超過4.5萬年的游戲時間)學會了玩《dota2》，但是它開始依賴于成千上萬的電腦芯片。布羅克曼說，僅僅租用所有這些芯片的使用權就花費了實驗室數(shù)百萬美元。

DeepMind和OpenAI能夠負擔得起所有這些計算能力所帶來的資金壓力。OpenAI的資金來自硅谷的各種巨頭，包括科斯拉風投(Khosla Ventures)和科技業(yè)億萬富翁里德·霍夫曼(Reid Hoffman)。但卡耐基·梅隆大學(Carnegie Mellon University)的人工智能研究員戴文德拉·查普勞德(Devendra Chaplot)說，學術實驗室和其他小型機構做不到這一點。對一些人來說，他們擔心一些資金充足的實驗室將主導人工智能的未來。

但是，即使是大型實驗室也可能沒有足夠的計算能力將這些技術應用到復雜的現(xiàn)實世界中，這可能需要更強大的人工智能形式，它們可以更快地學習。盡管這些人工智能程序現(xiàn)在可以在虛擬世界中贏得勝利，但它們在夏令營的空地上(現(xiàn)實世界)想要戰(zhàn)勝人類還是毫無希望的——而且在相當長一段時間內(nèi)都將是如此。

標簽：