close
選自DeeMind博客

作者:The MuZero Applied Team

機器之心編譯

機器之心編輯部

在保證視頻質量相似的前提下,DeepMind 的 MuZero 可以降低大約 4% 的比特率。


2016 年,DeepMind 推出了第一個能夠在圍棋中擊敗人類的智能體——AlphaGo。在之後的幾年裡,其繼任者 AlphaZero 和 MuZero 繼續向通用算法進發,用更少的預定義知識掌握了更多的遊戲。例如,MuZero 在沒有被告知規則的情況下就掌握了象棋、圍棋、日本將棋和雅達利遊戲。

然而,說來說去,這些應用還是沒能脫離遊戲的範疇,能不能用它們來解決現實世界的問題一直是外界關注的焦點。

昨天,DeepMind 在博客中公布了一個好消息:他們的 MuZero 已經向現實世界邁出了第一步,展現出了在優化視頻壓縮質量方面的潛力。相關細節呈現在一篇預印版論文中。


論文鏈接:https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf

在這項研究中,DeepMind 的研究者和 YouTube 展開了合作,一起探索 Muzero 在視頻壓縮領域的潛力。分析人士預測,流媒體視頻將占據互聯網流量的絕大部分。為了節省帶寬,視頻在傳輸之前就必須進行壓縮。這樣一來,如何將壓縮後的視頻畫質、流暢度等損失降到最小就成了視頻廠商關注的重要問題,也是一個有望用強化學習解決的問題。DeepMind 的 Muzero 可以在保證視頻質量相似的前提下降低大約 4% 的比特率。

大多數在線視頻依賴於編解碼器在視頻的源頭對其進行壓縮或編碼,然後通過互聯網將其傳輸給觀眾,最後再解壓或解碼播放。這些編解碼器為視頻中的每一幀做出多個決定。經過幾十年的手工工程,這些編解碼器已經實現了一定程度的優化,在視頻點播、視頻通話、視頻遊戲和虛擬現實等多個領域得到了應用,但還有很大的優化空間。

由於強化學習特別適用於像編解碼器那樣的順序決策問題,所以 DeepMind 就在這個問題上展開了探索。

他們的首個研究對象是被 YouTube 和其他流媒體服務廣泛使用的 VP9 編解碼器(特別是開源版本 libvpx)。與其他編解碼器一樣,使用 VP9 的服務提供商需要考慮比特率。比特率是指發送每幀視頻所需的 1 和 0 的數量,是服務和存儲視頻所需的計算量和帶寬的主要決定因素,影響視頻加載所需時間、分辨率、緩衝和數據使用等很多指標。

在編碼視頻時,編解碼器使用之前幀的信息來減少未來幀所需的比特數。

在 VP9 中,優化比特率最直接的方法是藉助速率控制模塊中的量化參數(QP)。這個參數決定了每一幀要應用的壓縮級別。給定一個目標比特率,視頻幀的 QP 按順序決定,以實現整體視頻質量最優化。直觀地說,我們應該為複雜場景分配較高的比特率(較低的 QP),為靜態場景分配較低的比特率(較高的 QP)。QP 選擇算法解釋了視頻幀的 QP 值如何影響其他視頻幀的比特率分配和整體視頻質量。強化學習對於解決這類序列決策問題特別有幫助。

對於 VP9 處理的每一幀視頻,MuZero-RC 取代 VP9 的默認速率控制機制,決定應用的壓縮級別,從而在較低的比特率下獲得相似的質量。

MuZero 結合了搜索能力和學習環境模式並做出相應計劃的能力,在各種任務中實現了超越人類的表現。這種方法在大型的組合動作空間中特別有效,使其成為解決視頻壓縮速率控制問題的理想候選方案。

然而,要讓 MuZero 處理這一現實世界的問題,還需要解決一系列全新的問題。例如,上傳到 YouTube 等平台的視頻集在內容和質量上存在差異;任何智能體都需要泛化至不同的視頻,包括部署後的全新視頻。相比之下,棋盤遊戲往往只有一個已知環境。而在視頻任務上,許多其他的指標和約束會影響最終的用戶體驗和比特率節省程度,比如 PSNR(峰值信噪比)和比特率約束。

為了應對這些挑戰,DeepMind 為 Muzero 創建了一種名為「自我競爭(self-competition)」的機制,它通過比較智能體當前的性能和歷史性能,將視頻壓縮的複雜目標轉化為一個簡單的 WIN/LOSS 信號。這使得一組豐富的編解碼器需求轉換成了一個簡單的信號,再由智能體進行優化。

通過學習視頻編碼的動態變化和確定如何最好地分配比特,MuZero 速率控制器(MuZero-RC)能夠在不降低質量的情況下降低比特率。QP 選擇只是編碼過程中眾多編碼決策中的一個。雖然幾十年的研究和工程已經產生了高效的算法,DeepMind 還是設想了單一的算法可以自動學習作出這些編碼決定,以獲得最佳的率失真權衡。

使用先前 QP 啟發式方法編碼的視頻

使用 MuZero-RC 編碼的視頻。藉助 MuZero-RC,每個視頻都能在降低所需的比特率的情況下獲得相似的質量。實驗表明,在大量不同的 YouTube 實時視頻中,比特率平均降低了 4% 。

除了視頻壓縮,這項研究的意義還在於他們邁出了將 MuZero 應用於現實世界的第一步,證明了強化學習智能體可以用於解決現實世界的問題。DeepMind 表示,通過創建具有一系列新能力的智能體來改進跨領域的產品,他們可以幫助各種計算機系統變得更快、更自動化。公司的長期願景是開發一個單一算法,用於優化數以千計的跨越各種領域的現實世界系統。

原文鏈接:https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()