close
當 AI 智能體不再滿足「與人斗其樂無窮」,它的能力極限在哪裡呢?

今日,由超參數科技發起,聯合學界麻省理工學院、清華大學深圳國際研究生院,以及知名數據科學挑戰平台 AIcrowd 共同主辦的「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」正式啟動。

過去數年,隨着神經網絡、基於強化學習的自我博弈、多智能體學習和模仿學習等通用 ML 技術的突飛猛進,AI 智能體在多類型遊戲中宣示着它們對人類愈來愈強的優勢。同時,人工智能研究者不再滿足於 AI 智能體擊敗人類了。為了探索 AI 智能體的能力極限,它們之間的合作競爭逐漸吸引了研究機構的興趣。

在程序生成的大規模地圖上舉辦海量 AI 團隊生存挑戰賽

2019 年 3 月,OpenAI 開發了一個面向強化學習的大規模多智能體遊戲環境 Neural MMO,作者 Joseph Suarez 現為 MIT EECS 的博士生。在這個虛擬遊戲世界中,對戰方不再是智能體和人類玩家,而是智能體之間的「亂鬥」。通過借鑑經典大型多人在線角色扮演遊戲(MMORPG ),Neural MMO 構建了一個非常考驗決策能力的遊戲環境,觀察其中上百個 AI 智能體如何為達成高級任務目標展開行動並做出決策。

多個 AI 智能體在行動中。來源:OpenAI

從學術角度來講,Neural MMO 讓探索海量 AI 的行動和決策能力有了一個公平較量的平台,它將強化學習、多任務學習和模型魯棒性等基礎、抽象但重要的研究話題綜合起來,並提供了具象的評測標準,可謂是絕佳的 AI 訓練實驗場,對促進通用人工智能的研究非常有幫助。

作為一家專注於 AI 領域前沿探索的科技公司,超參數科技曾提出 L1-L4 的技術路徑,並致力於通過此路徑來打造極致的 AI bot。根據該公司的構想,L3 階段重點發展海量相互影響的 AI Bot,即 AI 有 AI 的朋友或是彼此之間形成網絡,這與 Neural MMO 多智能體對戰遊戲環境完美契合。


但兩者的淵源不僅限於此。2021 年,AIcrowd 聯合 MIT 舉辦了首屆 Neural MMO Challenge(大規模多智能體環境中的魯棒性和團隊協作),吸引了業內人士的關注和參與,超參數科技的實習生在此嶄露頭角,以遙遙領先於第二名的 2010 分拔得頭籌。

此次,二者再度同框。由超參數科技領銜發起「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」以「尋找未來開放大世界的最強 AI 團隊」為賽事主題,通過在 Neural MMO 的大規模環境中進行探索、搜尋和戰鬥,比其他參賽者獲得更高的成就。本屆比賽設置了新的比賽規則,評估智能體面對新地圖和不同對手的策略魯棒性,並在 AI 團隊中引入了合作和角色分工,豐富了比賽內容,增強了趣味性。


IJCAI 2022 - Neural MMO 海量 AI 團隊生存挑戰賽介紹

全新比賽規則和任務:AI 團隊合作展開競逐

在 IJCAI 2022-NMMO 挑戰賽中,每局對戰有 128 個智能體,分成 16 只隊伍。每個參賽者控制其中的一隻小分隊,即 8 個智能體的行為。這些智能體小分隊將在 128x128 的地圖上進行自由對抗,比賽持續時間為 1024 步,完成 4 項任務成就。

參賽者需要通過定義智能體在 Neural MMO 環境中的決策方式,選擇使用基於規則、基於神經網絡或者兩者混合的方法來整合所有信息去採取相應的行動。

在實際行動中,各方智能體在環境中探索、覓食、戰鬥和升級裝備,並根據這些技能的等級計算分數,團隊的得分由某一項最高的個體得分決定。賽事方由此提醒,讓不同的智能體執行不同的角色任務可能更有利於獲勝。

Neural MMO 是完全開源的,包括兩種 Baseline 和其他相關代碼。主辦方提供了一個含有提交範例、本地評估和調試工具的新手教程。新手教程中的文檔將會指導參賽者安裝依賴和環境設置,按照教程可以在數十分鐘內完成第一次提交。

PvE+PvP 環節,雙重評估智能體的能力

線上評估時,除了環境設定之外,參賽者可以做必要的修改,引入自己對遊戲的理解,進行獎勵信號的設計等,從而設計基於規則或基於強化學習的智能體。新手教程中包含在評估中需要使用的配置文件,線上評估時會使用不同的隨機數種子。

每個參賽團隊每天的提交上限為 3 次(以成功的提交計算)。

本屆比賽將競賽和遊戲進行了結合,讓參賽者有玩家般的競技體驗。主辦方設計了兩大賽道。

首先是環境不變性較高的 PvE 賽道。PvE 設定中含有三個階段(Stage),每個階段的內置 AI 難度會有所不同。Stage 1 到 Stage 3 難度進階,參賽者在比賽過程中不斷優化算法和智能體,由此完成一步一步升級打怪。

Stage 1:參賽者提交的智能體會與 Baseline 進行對抗。這個 Baseline 是開源的,因而參賽者可以在訓練過程中訪問評估環境。參賽者的目標是在 Stage 1 的內置 AI 環境中獲得比競爭者更高的得分。Stage 1 的設計,其目的在於為新參賽者提供更為友好的環境,幫助他們較快地熟悉挑戰賽;

Stage 2/3:此階段將使用超參數科技訓練的兩個不同級別的神經網絡作為對手進行智能體評估。Stage 2 和 Stage 3 的神經網絡在賽中不會開源。從 Stage 1 到 Stage 3,內置 AI 的強度將不斷增加。


與此同時,為了讓比賽更刺激、更有趣味性,本屆比賽也為不同智能體團隊設計了大亂鬥 PvP 環節。在 PvE 環節中取得好成績的智能體,並不代表在與其他選手的智能亂鬥中也能勝出,這需要考驗算法的魯棒性。

根據比賽規則,在 Stage 1 的內置 AI 環境中獲得 25 成就分的智能體,將擁有自動參與 PvP 對戰的資格。符合資格的智能體將會與其他參賽者的智能體進行匹配及大亂鬥。參賽者的目標是比其他參賽者獲得更多的成就分。主辦方將根據匹配及大亂鬥的結果來評估 Ture Skill 的技能等級,PvP 的排行榜將根據 True skill 的等級更新。

關於模型計算資源的限制,參賽者可以使用任何資源進行智能體的訓練。不過,由於賽事目標並不是針對智能體進行優化或壓縮,因而限制相對較寬鬆。設定計算限制只是為了控制評估成本,而不是限制開發。

對於評估指標,參賽者的智能體將會根據下述任務完成情況,在每場對賽中獲得 0-100 的計分。簡單(綠色)的任務獲得 4 分,普通(橙色)的任務獲得 10 分,困難(紅色)的任務獲得 25 分。完成任務後,各項指標中的分數不會累加,只以最高得分作為積分。各項指標的閾值如下圖所示。


在 PvE 中,主辦方將以 Top1 勝率和提交時間作為排行指標。其中,獲得 Top1 的方式是:在內置的 AI 環境中獲得每場比賽的最高分。若勝率相同,模型提交早將會獲得更高的排名。成就分則與對戰方的強度息息相關,在 PvP 的比賽中,主辦方將會根據 True Skill 等級進行排名。

提交將在 6 月 30 日截止。7 月 1 日至 7 月 15 日,主辦方將重新進行大量的 PvP 對戰以確保排名的準確性,獎勵發放以最終排行榜為準。

全方位優化參賽體驗,對參賽者更友好

本屆比賽改善了工具鏈支持不夠方便、開發者不能很快定位分析問題等,着重優化了參賽者體驗,提供了很多簡單易上手的工具。

首先,之前的 Baseline 是基於 RLlib(工業級強化學習開源庫),它是一個高度封裝、對新手不太友好的框架。本屆比賽提供了基於 TorchBeast 的框架,參賽者的熟悉成本和修改成本都很低。

其次,在之前與環境交互的過程中,參賽者需要閱讀很多源碼。這次,主辦方把環境封裝地更好了,所有需要與環境交互的 API 都有很清晰的函數定義,節省了參賽者的大量時間成本。環境文檔也得到了完善,提供了環境的教程文檔、動作空間、觀測空間、本地測試和提交的流程,每一步都有詳細的介紹。

比賽獎勵:2 萬美金獎金池以及豐富的學術榮譽獎 & 趣味獎

為了提高參賽者的積極性,本屆比賽設立了價值 20000 美金的獎金池,第一名最高可獲得 7000 美金。此外,主辦方還設立了非常多有趣的獎項 ,比如 「酸腳(Jio)獎」。

PvE 排行榜及獎勵

PvE 環節設有捷足先登獎 / Stage(Pioneer Award / Stage):授予在每個內置 AI 環境的 Stage 中首個獲得 1.0 Top1 Ratio 的參賽者。獎項細節如下:

捷足先登獎總獎金為 2000 美元;

首個到達每個 Stage(暫定 3 個 Stage)的參賽者將分別獲得 300、700 和 1000 美元(根據 Stage 而變化);

每個團隊只能獲得一個捷足先登獎(當一個團隊獲得兩個或以上捷足先登獎時,將默認授予最高金額的捷足先登獎)。


首當其衝獎(Sprint Award):每兩周,在當前最高 Stage 的 PvE 排行榜的前三名將獲得特製證書。

PvP 排行榜及獎勵

主獎池(Main Prize Distribution):在比賽結束後,PvP 排行榜前 16 的參賽團隊將獲得獎金,前 64 的參賽團隊將獲得特製證書。


橫掃千軍獎(PvP Aficionado):智能體在擊敗( killing)的單個評價指標中,獲得第一名的團隊將獲得特製證書及獎勵。

日行千里獎(Sore Feet:):智能體在探索(exploration)的單個評價指標中,獲得第一名的團隊將獲得特製證書及獎勵。

除了現金獎勵之外,主辦方將在比賽結束時邀請每個賽道的前三名團隊共同撰寫一份總結文稿,並根據內容斟酌提供學術榮譽獎,例如使用計算資源最少獎或使用最少的人工知識獎。學術榮譽獎的獲得者將以共同作者身份一同被邀請撰寫 CompetitionReport。

未來三個月,把握賽事階段與關鍵節點

千萬牢記以下賽程時間安排:

4 月 14 日:新手教程上線、PvE 以及提交系統開放

5 月 5 日:PvP 對戰開放

6 月 23 日:組隊開放及比賽註冊截止

6 月 30 日:最終提交截止

7 月 1 日 - 7 月 15 日:PvP 的最終評估

7 月 16 日:最終結果發布


需要注意:賽事組織者保留在必要時更新比賽時間表的權利。所有截止日期均為太平洋標準時間的晚上 11:59(除非有特殊說明)。

用極致的 AI Bot 推動 AI 在遊戲領域的應用

在遊戲領域,NPC 如何像人一樣聰明一直以來都是主要訴求之一。早期的 NPC 經常被玩家調侃為「人工智障」,因為它們的行為範式很容易被摸索到。算法和資源投入與 AI 實際帶來的產出比,在遊戲未投入市場之前難以估計。因此,「AI」尚未在遊戲中真正普及。

不過最近幾年,伴隨着強化學習與遊戲的完美契合,AI + 遊戲成為新興賽道,AI 逐漸在遊戲中得到應用,比如以擊敗人類玩家為目標的 OpenAI Five(Dota 2)和 AlphaStar(星際爭霸 2)。以 AI 為主角的遊戲也開始出現,比如國內開源決策智能平台 OpenDILab 開發了一款以 AI 智能體為主角的競技遊戲環境 Go-Bigger,AI 世界有了自己的《球球大作戰》。

但應看到,AI 智能體在遊戲中的參與形式和應用場景不夠豐富,自身能力仍需進一步增強。

因此,舉辦 Neural MMO 生存挑戰賽,讓多方智能體在一個獨屬於 AI 的遊戲環境中尋找資源(如食物、水),並與其他智能體戰鬥(如近戰、遠攻和法攻),在交互中不斷自我學習和進化,增強自身能力。

有了更強的 AI 智能體,它們能夠以強化版 NPC 的角色加入到更多開放世界類遊戲中,比如超參數此前開發的玩轉「吃雞」遊戲的 3D 生存類 AI「獵戶座 α」 以及其他 AI Bot。這些高智商 AI 智能體不僅對於玩家來說很有吸引力,對於遊戲開發者來說,部署海量 AI 測試遊戲 bug、幫助製作遊戲關卡等都是極好的。

最後,如果你想在遊戲世界「馴化」一個屬於自己的AI智能體團隊,體驗升級打怪的樂趣,快來報名參賽吧!了解詳細賽事信息,可前往賽事官網(點擊「閱讀原文」可直達):
https://www.aicrowd.com/challenges/ijcai-2022-the-neural-mmo-challenge

參考鏈接:
https://arxiv.org/abs/1903.00784
https://openai.com/blog/neural-mmo/
https://www.jiqizhixin.com/articles/2022-01-04-11
https://mp.weixin.qq.com/s/tC1XKVl-slYAwbvDpHttcw
https://posts.careerengine.us/p/61aefa6d78dfb421ae727ba4
https://www.aicrowd.com/challenges/the-neural-mmo-challenge

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()