close

大數據文摘轉載自機器人大講堂

人類寶寶在出生後的第1年裡,就會逐漸掌握協調能力,學習坐、立、翻滾和爬行。

那麼機器人呢?

機器人能完成多複雜的任務,取決於它的學習能力。在最近的一項研究中,來自UC伯克利大學的的研發人員利用「 Dreamer」 世界模型的最新成果訓練了各種機器人:無需模擬器或示範學習,就能實現現實世界中的在線強化學習。

正在學習走路的機械狗

開始走的像模像樣了!

起身也賊6!

運用了「想象力」的Dreamer

早在2019年,谷歌DeepMind和多倫多大學的研究人員就在NeurIPS 2019會議上介紹了AI 「Dreamer」,它可以通過已知世界模型在新環境中對視覺圖像的運動方式進行預測。Dreamer在觀察到圖像運動方式時,會先構想出一些可能的動作,然後判斷這些構想動作可能得到的獎勵,根據獎勵來最終預測動作。

基於谷歌提出的這種可擴展的強化學習方法。在此次研究中,團隊的目標是在現實世界中推動機器人學習的極限,並提供一個強大的平台來支持未來的工作。

除了教四足機器人翻身、站立並在 1 小時內學會行走,團隊還把 Dreamer 應用於其他3個機器人。

比如這個機械臂,在經過8-10小時抓取學習後,表現接近於人類水平;

這個有計算機視覺的小機器人,通過學習摸索2小時後,可以「順滑」的滾動到指定地點。

研發團隊還公開發布了所有實驗的軟件基礎架構,感興趣的小夥伴們可以移步開源地址↓↓↓

https://blog.otoro.net/2018/06/09/world-models-experiments/

總的來說,World Model就是一個智能體模型。它包括一個視覺感知組件,能將看到的圖像壓縮成一個低維的表徵向量作為模型輸入,同時還有一個記憶組件,可以基於歷史信息,對未來的表徵向量做出預測。最後還包括一個決策組件,它能基於視覺感知組件、決策組件的表徵向量,決定採取怎樣的動作。

三個緊密協作的組件:視覺 (V)、記憶 (M) 和控制器 (C)

世界模型作為一個學習預測環境動態的深度神經網絡,我們不難發現,這是一個經驗積累到動作輸出的過程。

此次,研發人員們主要解決了機器人學習、訓練中的兩項難題:效率和準確率。

以往訓練機器人的常規方法是強化學習,通過反覆實驗來調整機器人的運作,但這種方法往往需要反覆不斷的測試才能達到滿意的效果,在效率和訓練的成本上顯得有些差強人意。

通過此次研發團隊的成果進展,在訓練機械狗的過程來看,效率有了明顯的提升。

在訓練機械臂學習的過程中,這一新成果還克服了視覺定位和稀疏獎勵的挑戰,訓練成果明顯優於其他方法。

研發團隊大揭秘

此次研發項目中的一位核心成員十分令人矚目,他就是AI 大牛吳恩達的學生、機器人學習專家、UC 伯克利教授 Pieter Abbeel 。在今年4月,他還摘得了最新一屆 ACM 計算獎的榮譽,以表彰他在機器人學習方面的貢獻,包括從演示中學習和用於機器人控制的深度強化學習。

Pieter Abbeel 現為加州大學伯克利分校計算機科學與電氣工程教授,也是人工智能機器人公司 Covariant 的聯合創始人、總裁兼首席科學家。Abbeel 在比利時魯汶大學獲得電氣工程學士學位,並在斯坦福大學獲得計算機科學碩士和博士學位。

Pieter Abbeel和老師吳恩達

不愧是AI 大牛的開山大弟子,讓人看了都直呼優秀!

另一位 Ken Goldberg,也是 AI 領域的頂級專家。

他現在是 UC 伯克利工程教授,研究方向為強化學習、人機交互等。其卓越的科研成就使其被公認為美國人工智能領域的重量級專家。他教授研發出多種讓他享有盛譽的網絡化遙控科研產品,由他主導的自動化領域研究共獲六項美國專利並榮獲諸多國家級科學大獎。

此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner 三人為共同一作。其中 Philipp Wu 還只是 UC 伯克利一位大四的學生。

論文地址:

https://danijar.com/project/daydreamer/

點「在看」的人都變好看了哦!
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()