
(本文閱讀時間:11分鐘)
01
自動強化學習輔助損失函數設計

論文鏈接:
https://www.microsoft.com/en-us/research/publication/reinforcement-learning-with-automated-auxiliary-loss-search/
項目主頁:
https://seqml.github.io/a2ls/
強化學習算法通常面臨稀疏獎勵、高維輸入情況下優化穩定性較差等訓練問題。為此,研究者們根據經驗提出了多種輔助損失函數,以幫助強化學習進行訓練。然而,這些人工設計的輔助損失函數十分依賴人類知識,且設計過程耗時費力;同時,由於未考慮強化學習的原本優化目標,這些損失函數在函數空間中都屬於次優解。
為了解決這些問題,微軟亞洲研究院的研究員們提出了自動強化學習的框架 A2LS,在包含現有人工設計的損失函數的空間(複雜度約為7.5×10^20)中,使用基於元學習的自動化算法自動搜索更優的輔助損失函數。算法在三個隨機選擇的機器人訓練環境中經過4至7輪的搜索後,找到了一個較優的輔助損失函數 A2-winner。廣泛的實驗結果證明,該輔助損失函數不僅能大幅提升強化學習的訓練效果,而且顯著優於人工設計的輔助函數,其在多種不同的場景下具有優秀的遷移泛化性,包括從未在訓練環境中見過的:(1)基於圖像的環境;(2)不同的場景例如遊戲場景;(3)不同的狀態類型;(4)不同的策略網絡結構;(5)部分狀態可見(partial observable)的場景。論文原文中還提供了更多視角的對比分析,表明算法的特點與搜索結果的優越性。

圖1:自動強化學習算法框架(上);搜索過程可視化圖(下)
02
自提升離線強化學習

論文鏈接:
https://www.microsoft.com/en-us/research/publication/bootstrapped-transformer-for-offline-reinforcement-learning/
項目主頁:
https://seqml.github.io/bootorl/
隨着強化學習在真實世界場景中的需求逐漸增大,作為一種新的強化學習訓練範式,離線強化學習(offline reinforcement learning)受到了越來越多的關注。離線強化學習利用預先保存的智能體與環境的交互數據進行離線訓練,進而獲得可用於在線真實環境的智能體。目前較受關注的一個離線強化學習技術分支是引入 Transformer 模型做序列建模,並取得了良好的成效。
現有的離線強化學習數據存在兩個問題,第一是覆蓋率的問題,主要由於採樣獲得這些離線數據的智能體可能是任意的智能體,難以保證離線數據對強化學習真實的數據分布具備良好的覆蓋;第二是訓練數據量的問題,相比較自然語言處理預訓練模型動輒上百萬文本語句的語料庫相比,離線強化學習的訓練數據量一般較小。
根據目前 Transformer 模型序列建模與生成的特性,微軟亞洲研究院的研究員們提出了自提升的離線強化學習訓練框架 Bootstrapped Transformer(簡稱BooT)以解決上述問題。BooT 方法建模了離線訓練數據的分布並同時生成了新的符合分布的數據以反哺訓練過程。在通用的離線強化學習基準中,BooT 顯著提升了效果,甚至超越了使用80倍數據量的其他預訓練方案;量化與可視分析均表明 BooT 生成的數據更加符合原始數據分布,並能彌補原有離線訓練數據的不足。

圖2:BooT 序列生成過程(上);BooT 序列生成結果與分布降維可視化(下)
03
面向具有分段穩定上下文的非平穩環境的自適應深度強化學習

論文鏈接:
https://www.microsoft.com/en-us/research/publication/an-adaptive-deep-rl-method-for-non-stationary-environments-with-piecewise-stable-context/
在現實生活中,智能體處在不斷變化的環境中。這是阻礙強化學習算法成功應用的原因之一。在很多現實問題中,環境(例如網絡可用帶寬、機器人所處地形等)會在一段隨機的時間內保持不變,隨後以不可預測的方式發生突然跳變。這些環境變量往往不可觀測。因此,智能體需要及時檢測到這種變化,並快速調整自身策略以適應這種變化。然而現有工作的建模方式都不能很好地解決當前問題。
為此,微軟亞洲研究院的研究員們提出了一種新的 Latent Situational MDP (LS-MDP),引入了環境變量 C 以及環境變量結構 G 來細緻地刻畫問題的結構,並提出了 SeCBAD(segmented context belief augmented deep RL)算法,以聯合推斷環境變量結構及內容的方式,來完成對環境變化的快速檢測。同時,研究員們還使用推斷的環境變量 belief 對 state 進行增廣,從而使得智能體可以在收集更多信息、與利用已有信息最大化回報這兩種策略間達到最優權衡。在機器人控制、網絡帶寬控制等應用上對該算法的實驗結果表明 SeCBAD 能夠顯著提升性能。

圖3:SeCBAD 算法框架圖
04
基於多模態時序對比學習的長視頻-語言預訓練

論文鏈接:
https://www.microsoft.com/en-us/research/publication/long-form-video-language-pre-training-with-multimodal-temporal-contrastive-learning/
項目主頁:
https://github.com/microsoft/XPretrain
以往對視頻-語言預訓練的研究主要集中在短視頻(即30秒內的視頻)和句子上,忽略了真實場景中更加常見的長視頻理解。直接從長視頻和語言中學習表徵可以幫助許多長視頻-語言理解任務的發展,但遠程關係建模的難度和更多幀引起的計算負擔極具挑戰性。
在本文中,研究員們提出了 Long-Form VIdeo-LAnguage 預訓練模型(LF-VILA),並在基於視頻文本數據集 HD-VILA-100M 構建的大規模長視頻和段落數據集 LF-VILA-8M 上進行了訓練。為了有效地捕捉豐富的時序動態,並以有效的端到端的方式更好地對齊視頻和語言, LF-VILA 模型中引入了兩種新設計。研究員們首先提出了一種多模態時序對比學習(MTC)損失,通過鼓勵長視頻和段落之間的細粒度對齊來學習不同模態之間的時序關係。其次,提出了一種分層時間窗口注意力(HTWA)機制,以有效捕獲長期依賴關係,同時降低 Transformer 的計算開銷。
在7個下游長視頻語言理解任務(包括段落到視頻檢索和長視頻問答)上對預訓練的 LF-VILA 模型進的驗證表明,LF-VILA 取得了最好的性能。具體而言,LF-VILA 在 ActivityNet 段落到視頻檢索任務上取得了16.1%的相對改進,在 How2QA 任務上取得了2.4%的相對改進。LF-VILA 的代碼、數據集和預訓練的模型將很快在官方項目主頁上發布,歡迎關注。

圖4:LF-VILA 預訓練模型框架圖(a)與 MTC 方法示意圖(b)
05
面向多任務分組學習的元學習框架

論文鏈接:
https://openreview.net/forum?id=Rqe-fJQtExY
多任務學習範式被廣泛應用於各種各樣的機器學習場景中,包括語言理解、視覺識別、機器人控制、藥物發現、臨床治療、能源管理等等。然而,如何有效地選擇共同訓練的任務組合卻是一個極有挑戰性的問題,這裡有兩方面的原因:1)任務組合的數量隨着任務數量的增加而成指數級別地增長;2)簡單地選擇一種分組可能會導致某些任務出現嚴重的性能衰退。現有的研究工作要麼聚焦於給定任務組合情況下的優化方法和模型架構,要麼採用一些啟發式的方法來應對指數增長的任務組合(比如:將多個任務組合在一起的收益,近似均攤為其兩兩組合的收益之和)。諸多新進多任務學習研究都認為在任務數量較多時,充分探索這個指數級別增長的任務組合的空間是幾乎不可能完成的任務。
為了應對任務組合爆炸增長的挑戰,在本文中,研究員們為多任務分組學習提出了一套元學習框架。本文的核心觀測在於儘管任務組合的數量隨着任務的數量指數增長,但任務組合與在其上做多任務學習帶來的增益之間的關係卻存在於一個低維的流形空間中。基於此觀測,本文定義了一個任務組合上的元學習問題:給定一個任務組合,預測其多任務學習相對於單任務學習所帶來的增益。在此元學習問題的基礎上,研究員們構建了一個元模型並開發了一套逐步選擇元學習樣本的訓練方法。基於此方法,只需要進行有限次的多任務學習與評估,即可獲得一個有效的元模型來準確地預測出所有未知任務組合上多任務學習的增益,進而實現有效的任務分組。
值得注意的是,在視覺、能源、醫療等多種多任務學習場景下驗證了以上框架後,一個大規模的實驗評測(27個臨床醫療預測任務,超過10億的任務組合)表明:在幾乎同等的計算開銷下,相對於現有的最佳方案,本文所提出的元學習方法獲得了幾乎翻倍的性能提升。

圖5:元學習框架圖
想要詳細了解本期分享的論文?我們準備了微軟亞洲研究院 NeurIPS 2022 論文直播分享,邀請你共同探索計算機科學的更多可能!
本次直播分享所選取的論文將採用投票形式選出,位列投票榜前列的論文將於近期在 B 站「微軟中國視頻中心」賬號進行直播,快來支持本期你最感興趣的論文,為它投上一票吧!
你也許還想看:


