大數據文摘 - Science：DeepMind又一突破，AI玩轉了西洋陸軍棋，躋身歷史top3－鑽石舞台

大數據文摘轉載自學術頭條

對棋類遊戲的掌握程度，一直是判斷人工智能（AI）是否真正智能的依據之一，因為這類遊戲可以被用來評估 AI 代理在受控環境下自主開發和執行策略的能力。如今，AI 在此前尚未掌握的經典棋類遊戲 Stratego（西洋陸軍棋）中，表現出了人類專家級一般的水準——以 97%的最低勝率擊敗了其他 AI 機器人；在 Gravon 平台上與人類專業玩家對弈，取得了 84%的總勝率，在年初至今和歷史排行榜上都排在前三名。值得注意的是，這一驚人表現是在沒有部署任何搜索方法的情況下實現的，這是 AI 之前在棋類遊戲中取得多個裡程碑式成就的關鍵。相關研究論文以「Mastering the game of Stratego with model-free multiagent reinforcement learning」為題，已發表在權威科學期刊 Science 上。多年來，Stratego 一直是人工智能行業的下一個前沿領域之一。Stratego 玩家既需要有像玩國際象棋一樣的長期戰略性思考，也需要能夠像打撲克一樣處理不完全的信息。不完全信息，意味着參與人在進行博弈時不清楚博弈中的某些要素。例如，在橋牌遊戲中，玩家並不清楚其他玩家手中的牌，在拍賣會中，競拍人並不清楚其他競拍人對物品的估價。這個名為「DeepNash」的 AI 代理出自 DeepMind，在他們看來，這代表了一個非凡的成果；同樣，Stratego 社區也認為，這用現有技術是不可能實現的。Stratego 誕生於 1947 年，與中國陸軍棋不同，其軍銜、棋子數量較多，棋盤設計較為簡單，沒有鐵路、行營，也沒有裁判，當兩方棋子相遇後，才會揭開來判斷大小。二者的相同之處，都是以奪得對方軍旗或消滅所有可移動的棋子為勝利標誌。

Stratego 便是一種不完全信息遊戲。與之相反，國際象棋、跳棋、日本將棋和圍棋可看作完全信息博弈，因為雙方完全清楚遊戲規則，當前局面對方可能的下法等信息。而且，Stratego 具有非常複雜的結構，其博弈樹具有 10^535 種可能的狀態，比無限德州撲克（10^164）和圍棋（10^360）都要多。另外，在特定情況下，Stratego 玩家需要在遊戲開始時推理出多於 10^66 對可能的排布，而在德州撲克中，這一數字僅為 10^6；完全信息遊戲則沒有這一階段，相對更為簡單。

在 Stratego 中，雙方各有代表元帥（Marshal）、將軍（General）、上校（Colonel）、中校（Major）、上尉（Captain）、中尉（Lieutenant）、士官（Sergeant）、除雷兵（Miner）、斥侯（Scout）、間諜（Spy）、地雷（Bomb）、軍旗（Flag）的棋子。

具體遊戲規則為：兩方將所有己棋豎立、以正面朝後的方式排布，然後輪流移動一枚己棋；可以將棋子沿縱橫方向移動一格至空格或敵棋處，但需要維持正面朝後；如果一方棋子到達敵棋處，便將兩棋公開，一般勝方這一棋子會被放回原位且正面繼續朝後，輸方這一棋子則被移除遊戲。

提前計劃的能力，一直判斷某一 AI 技術/代理是否成功的核心問題，Stratego 等不完全信息遊戲，則常被用來測試 AI 代理依次做出相對緩慢、慎重和合乎邏輯的能力大小。然而，目前利用不完全信息搜索技術來掌握 Stratego 是不可能的。據論文描述，DeepNash 使用了一種博弈論的、無模型的深度強化學習方法 R-NaD，無需搜索，便能以從頭開始的自我博弈方式來學習如何掌握遊戲策略，比如虛張聲勢。正如馮·諾伊曼（von Neumann）所描述的那樣：「現實生活由『虛張聲勢』『欺騙的小策略』『問問自己別人會認為我打算做什麼』組成。」

圖｜DeepNash（藍色）在與人類（紅色）的對陣中表現出「虛張聲勢」。正面虛張聲勢（A）；負面虛張聲勢（B）；DeepNash 將一個斥候偽裝成一個間諜，並獲得情報（C）。（來源：該論文）

研究團隊表示，這項工作引入了一種新的博弈論方法，與最先進的基於搜索的學習方法截然不同，在訓練過程中不執行任何形式的搜索或顯式對手建模，只依賴於在測試時使用一些遊戲特定的啟發式教學。展望未來，目前還沒有跡象表明 R-NaD 在零和的雙人遊戲設定之外會如何發展。然而，研究團隊卻認為，它或許可以解鎖深度學習方法在現實世界中具有不完全信息特徵的巨大空間的多智能體問題中的進一步應用。例如，最先進的雙人撲克方法已經成功應用在六人撲克中。該方法在這類不完全信息場景下或許有很多潛在應用，包括人群和交通建模、智能電網、拍賣設計和市場問題等。參考鏈接：www.science.org/doi/10.1126/science.add4679