人類每天使用數字設備的時間長達數十億小時。如果我們能夠開發出協助完成一部分這些任務的智能體,就有可能進入智能體輔助的良性循環,然後根據人類對故障的反饋,改進智能體並使其獲得新的能力。DeepMind 在這一領域有了新的研究成果。如果機器可以像人類一樣使用計算機,則可以幫助我們完成日常任務。在這種情況下,我們也有可能利用大規模專家演示和人類對交互行為的判斷,它們是推動人工智能最近取得成功的兩個因素。最近關於 3D 模仿世界中自然語言、代碼生成和多模態交互行為的工作(2021 年 DeepMind 交互智能體團隊)已經產生了具備卓越表達能力、上下文感知和豐富常識的模型。這項研究有力地證明了以下兩種組件的力量:機器與人類之間一致的豐富、組合輸出空間;為機器行為提供信息的大量人類數據和判斷。具備這兩種組件但受到較少關注的一個領域是數字設備控制(digital device control),它包括使用數字設備來完成大量有用任務。由於幾乎完全使用數字信息,該領域在數據採集和控制並行化方面具有很好的擴展性(與機器人或聚變反應堆相比)。該領域還將多樣化、多模態輸入與富有表達能力、可組合且兼容人類的可供性相結合。近日,在 DeepMind 的新論文《A Data-driven Approach for Learning to Control Computers》,研究者重點探究了訓練智能體像人一樣進行鍵盤和鼠標的基本計算機控制。
論文地址:https://arxiv.org/pdf/2202.08137.pdfDeepMind 對計算機控制進行初步調查採用的基準是 MiniWob++ 任務套件(一組具有挑戰性的計算機控制問題),它包含一組執行點擊、打字、填寫表格和其他此類基本計算機交互任務的指令(下圖 1 b)。MiniWob++ 進一步提供了以編程方式定義的獎勵。這些任務是邁向更開放人機交互的第一步,其中人類使用自然語言指定任務並提供有關性能的後續判斷。研究者重點訓練智能體來解決這些任務,使用的方法在原則上適用於任何在數字設備上執行的任務,並且具備符合預期的數據和計算擴展特性。因此,他們直接結合強化學習(RL)和行為克隆(BC)兩種技術,其中行為克隆通過人類與智能體行動空間之間的對齊來輔助完成(也就是鍵盤和鼠標)。具體地,研究者探究使用鍵盤和鼠標進行計算機控制,並通過自然語言指定對象。並且,他們沒有專注於手工設計的課程和專門的行動空間,而是開發了一種基於強化學習的可擴展方法,並結合利用實際人機交互提供的行為先驗。這是 MiniWob(2016 年由 OpenAI 提出的一種與網站交互的強化學習智能體的基準,MiniWob++ 是它的擴展版本)構想中提出的一種組合,但當時並未發現可以生成高性能智能體。因此,之後的工作試圖通過讓智能體訪問特定 DOM 的操作來提升性能,並通過受限的探索技術使用精心策劃的指導來減少每個步驟中可用的行動數量。通過重新審視模仿與強化學習的簡單可擴展組合,研究者發現實現高性能主要的缺失因素僅是用於行為克隆的人類軌跡數據集的大小。隨着人類數據的增加,性能會可靠地提升,使用的數據集大小是以往研究中的 400 倍。研究者在 MiniWob++ 基準測試中的所有任務上都實現了 SOTA 和人類平均水平,並找到了跨任務遷移的強有力證據。這些結果證明了訓練機器使用計算機過程中統一的人機界面非常有用。總之,研究者結果展示了一種超越 MiniWob++ 基準測試能力以及像人類一樣控制計算機的方案。對於 DeepMind 的這一研究,網友大都驚呼「不可思議」。
MiniWob++ 是 Liu 等人在 2018 年提出的基於 web 瀏覽器的套件,是早期 MiniWob(Mini World of Bits)任務套件的擴展,而 MiniWoB 是一個用於與網站交互的強化學習基準,其可以感知小網頁(210x160 像素)的原始像素和產生鍵盤和鼠標動作。MiniWob++ 任務範圍從簡單的按鈕點擊到複雜的表單填寫,例如,在給出特定指令時預訂航班(圖 1a)。之前關於 MiniWob++ 的研究已經考慮了能夠訪問 DOM 特定動作的架構,從而允許智能體直接與 DOM 元素交互而無需鼠標或鍵盤導航到它。DeepMind 的研究者選擇僅使用基於鼠標和鍵盤的操作,並進一步假設該接口將更好地遷移到計算機控制任務,而無需與緊湊的 DOM 進行交互。最後,MiniWob++ 任務需要單擊或拖動操作,而這些操作無法通過基於 DOM 元素的操作來實現(參見圖 1b 中的示例)。與之前的 MiniWob++ 研究一樣,DeepMind 的智能體可以訪問由環境提供的文本字符串字典,該字典被輸入到給定任務的輸入字段中(參見附錄圖 9 示例)。下圖為運行 MiniWob++ 的計算機控制環境。人類和智能體都使用鍵盤和鼠標控制計算機,人類提供用於行為克隆的示範行為,智能體受過訓練以模仿這種行為或表現出追求獎勵的行為。人類和智能體嘗試解決 MiniWob++ 任務套件,其中包括需要單擊、鍵入、拖動、填寫表格等。
如果想要智能體像人類一樣使用計算機,它們需要接口來傳輸和接收觀察結果和動作。最初的 MiniWob++ 任務套件提供了一個基於 Selenium 的接口。DeepMind 決定實現一個可替代環境堆棧,旨在支持智能體可以在 web 瀏覽器中實現各種任務。該接口從安全性、特性和性能方面進行了優化 (圖 1a)。原來的 MiniWob++ 環境實現通過 Selenium 訪問內部瀏覽器狀態並發出控制命令。相反,DeepMind 的智能體直接與 Chrome DevTools 協議 (CDP) 交互,以檢索瀏覽器內部信息。DeepMind 發現沒有必要基於專門的 DOM 處理架構,相反,受最近關於多模態架構的影響,DeepMind 應用了最小模態特定處理,其主要依靠多模態 transformer 來靈活處理相關信息,如圖 2 所述。
感知。智能體接收視覺輸入(165x220 RGB 像素)和語言輸入(示例輸入顯示在附錄圖 9 中)。像素輸入通過一系列四個 ResNet 塊,具有 3×3 內核,strides 為 2、2、2、2,以及輸出通道(32、128、256、512)。這產生了 14×11 的特徵向量,DeepMind 將其展平為 154 個 token 列表。三種類型的語言輸入任務指令、DOM 和任務字段使用同一個模塊處理:每個文本字符串被分成 token,每個 token 映射被到大小為 64 的嵌入。策略:智能體策略由 4 個輸出組成:動作類型、光標坐標、鍵盤鍵索引和任務字段索引。每個輸出都由單個離散概率分布建模,除光標坐標外,光標坐標由兩個離散分布建模。動作類型是從一組 10 種可能的動作中選擇的,其中包括一個無操作(表示無動作)、7 個鼠標動作(移動、單擊、雙擊、按下、釋放、上滾輪、下滾輪)和兩個鍵盤動作(按鍵、發出文本)。DeepMind 從 77 名人類參與者那裡收集了超過 240 萬個 104 MiniWob++ 任務演示,總計大約 6300 小時,並使用模仿學習和強化學習 (RL) 的簡單混合來訓練智能體。由於大部分研究通常只解決了 MiniWob++ 任務的一個子集,因此該研究在每個單獨的任務上採用已公開的最佳性能,然後將這些子任務的聚合性能與該研究提出的智能體進行比較。如下圖 3 所示,該智能體大大超過了 SOTA 基準性能。
此外, 該智能體在 MiniWob++ 任務組件中實現了人類水平的平均性能。這種性能是通過結合 BC 和 RL 聯合訓練來實現的。
研究者發現,雖然該智能體的平均性能與人類相當,但有些任務人類的表現明顯優於該智能體,如下圖 4 所示。
研究者發現,與在每個任務上單獨訓練的智能體相比,在 MiniWob++ 的全部 104 個任務上訓練一個智能體可以顯著提升性能,如下圖 5 所示。
如下圖 7 所示,人類軌跡數據集(human trajectory dataset)的大小是影響智能體性能的關鍵因素。使用 1/1000 的數據集,大約相當於 6 小時的數據,會導致快速過擬合,並且與僅使用 RL 的性能相比沒有顯著提升。隨着該研究將此基線的數據量增加到三個數量級直至完整數據集大小,智能體的性能得到了持續的提升。
此外,研究者還注意到,隨着算法或架構的變化,在數據集大小上的性能可能會更高。該智能體使用像素和 DOM 信息,並且可以配置為支持一系列不同的操作。該研究進行了消融實驗以了解各種架構選擇的重要性。該研究首先消融不同的智能體輸入(圖 8a)。當前的智能體配置強烈依賴 DOM 信息,如果刪除此輸入,性能會下降 75%。相反,視覺信息的輸入對該智能體的影響不太顯著。
如圖 8b 所示,該研究移除了智能體使用環境給定的文本輸入選項(任務字段)的能力。有趣的是,移除之後的智能體仍然能夠解決涉及表單填寫的任務,但它是通過 highlight 文本,並將其拖動到相關的文本框,以從人類軌跡中學會完成這個任務。值得注意的是,在原始 Selenium 版本的環境中智能體實現這種拖動操作並不簡單。圖 8b 還展示了一個消融實驗結果,其中智能體使用與特定 DOM 元素交互的替代動作。這意味着智能體無法解決涉及單擊畫布內特定位置、拖動或 highlight 文本的任務。WAIC 2022上海人工智能開發者大會嘉年華——Amazon DeepRacer冠軍爭奪賽
WAIC 2022上海人工智能開發者大會將於2月26日在上海臨港舉辦。活動當天將有四場以 「智能時代的 AI 生活」為主題嘉年華,其中Amazon DeepRacer冠軍爭奪賽將在當天下午開賽。AmazonDeepRacer是亞馬遜雲科技推出的 1/18 自動駕駛賽車,使用攝像頭查看賽道,並使用強化學習模型來控制油門和方向盤。用戶可以在模擬環境或實際賽道上測試強化學習模型,進行賽車競速。1小時上手AI,構建自己的第一個強化學習模型!來與大神們一起開啟 「速度與激情」 的進階之旅!©THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com