close

Hi~新朋友,記得關注我們喲


The Batch: 334|靠速度和勇氣贏得勝利


坐在扶手椅中的速度惡魔有了一個新的對手。


●最新消息:Peter Wurman和索尼的一個團隊開發了GT Sophy,這是一個強化學習模型,它打敗了《GT Sport》的人類冠軍玩家。《GT Sport》是一款PlayStation遊戲,模擬汽車比賽,細節精確到了輪胎摩擦和空氣阻力。

●關鍵洞見:車輛在比賽過程中撞到另一輛車是允許的(就像上面的視頻中那樣),但是在無害碰撞和那些會給違規者帶來優勢的碰撞之間存在一條主觀界限。在官方的賽車比賽中——就像現實世界的比賽一樣——人類裁判會做出判罰,並懲罰違規的司機。強化學習算法可以通過為每次碰撞分配代價來模擬判斷,但必須對其進行調整,以避免對性能產生不利影響:懲罰過高,司機會變得膽小;懲罰過低,司機會變得危險。對於一些常見情況,比如追尾、側滑和在彎道上的碰撞,通常會被認為是司機的錯誤,應該有助於神經網絡大膽地學習駕駛,而不會為了獲得優勢而撞到對手。

●工作原理:給定汽車和周圍環境的信息,一個vanilla神經網絡會決定如何駕駛和加速。研究人員在三個虛擬軌道和定製場景中訓練網絡,如 slingshot pass(可以使模型與自身相對抗)、模型之前的自身迭代,以及遊戲中的AI。
✴以一秒十次的速度,一個vanilla神經網絡會根據幾個變量決定加速或剎車的速度,以及左轉或右轉的速度:汽車的速度、加速度、方向,每個輪胎的重量、位置,描述前方環境的數據點、周圍汽車的位置、是撞上了牆還是另一輛車,以及它是否偏離了軌道。
✴在訓練過程中,一種強化學習算法會對行進和戰勝對手的模型進行獎勵,並對打滑、撞牆、讓對手取得優勢、偏離軌道和與對手相撞的行為施加處罰。模型還進一步懲罰了典型的故障場景。
✴另一個單獨的vanilla神經網絡在獲得了汽車和環境的信息後,學會了預測未來採取特定行動的回報。
✴第一個網絡學會了採取行動,使預期的未來回報最大化。

●結果:在計時賽中,GT Sophie的圈速超過了三位世界頂級賽車手。此外,由四個GT Sophie 組成的車隊在兩組比賽中與四名最優秀的人類車手進行了一場為期數月的三輪面對面比賽。積分是根據汽車的最終名次來決定的:第一名10分,第二名8分,第三名6分,剩下的名次一次計5到1分。人類車隊以86:70贏了第一盤。然後,開發人員增加了模型的大小,並改變了一些獎勵和功能及其他調整,GT Sophie團隊贏得了第二盤,比分為104:52。

●為什麼重要:與學習算法擊敗人類冠軍的國際象棋和圍棋等棋類遊戲不同,贏得一場汽車比賽需要快速做出複雜的決定,同時要在輕觸對手和使對手癱瘓之間設定一條細微的界線。也就是說,在一款非常逼真的電子遊戲中表現出色與駕駛一輛真正的汽車仍存在較大差距。

●我們在想:自動駕駛需要感知、計劃和控制。毫無疑問最新的算法在控制方面可以超越大多數人類駕駛員,但在感知和規劃方面還有很長的路要走。


點擊下方閱讀原文查看更多有趣內容哦~

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()