機器之心 - 圖靈獎獲得者Yann LeCun：未來幾十年AI研究的最大挑戰是「預測世界模型」－鑽石舞台

機器之心報道

機器之心編輯部

LeCun 認為，構造自主 AI 需要預測世界模型，而世界模型必須能夠執行多模態預測，對應的解決方案是一種叫做分層 JEPA（聯合嵌入預測架構）的架構。該架構可以通過堆疊的方式進行更抽象、更長期的預測。LeCun 和 Meta AI 希望分層 JEPA 可以通過觀看視頻和與環境交互來了解世界是如何運行的。

深度學習大規模應用之後，人們一直期待真正的通用人工智能出現，能夠帶來進一步的技術突破。

對此，Meta 首席科學家、圖靈獎獲得者 Yann LeCun 最近提出了一種新思路：他認為讓算法預測世界內在運行規律的「世界模型」將是關鍵。他的思考引發了人們的關注。

在本周的一次線上活動中，LeCun 用一個小時的時間介紹了自助人工智能的新思路，並提出聯合嵌入預測架構（JEPA）是未來的發展方向。

儘管 AI 研究最近取得了顯著進展，但我們離創造出像人一樣思考和學習的機器還有很長的路要走。正如 Yann LeCun 所說，一個從沒有開過車的青少年可以在 20 小時之內學會駕駛，但最好的自動駕駛系統卻需要數百萬或數十億的標記數據，或在虛擬環境中進行數百萬次強化學習試驗。即使費這麼大力，它們也無法獲得像人類一樣可靠的駕駛能力。

怎樣才能打造出接近人類水平的 AI？僅靠更多的數據和更大的模型能解決嗎？

在 Meta AI 近期舉辦的 Inside the Lab event 中，LeCun 勾勒出了構建人類水平 AI 的另一種願景。他指出，學習「世界模型」（即世界如何運作的內部模型）的能力可能是關鍵。

原視頻鏈接：https://www.youtube.com/watch?v=DokLw1tILlw

PPT 鏈接：https://drive.google.com/file/d/1Txb9ykr03Lda-oTLXbnlQsEe46V8mGzi/view

Yann LeCun 的觀點與 Kanai 等人提出的意識信息生成理論非常一致——智能源於能夠生成世界複雜表示的能力（包括反事實），不過也有學者對此持消極態度。

卡耐基梅隆大學教授，前蘋果 AI 研究主管 Russ Salakhutdinov 對此評價道：Josh Tenenbaum 和其他很多研究者在十年前已經開始研究世界模型，當時我在他的實驗室做博士後。因此，當 Facebook 說他們正在研究基於世界模型的 AI 新願景時，我覺得這聽起來有點好笑。

LeCun 提出的方法究竟能否成為通向通用人工智能的道路？讓我們結合 Meta AI 前幾天的博客來了解一下 LeCun 的想法。

可以建模世界如何運行的 AI

LeCun 說，人和動物似乎能夠通過觀察和難以理解的少量互動，以一種獨立於任務的、無監督的方式，學習大量關於世界如何運行的背景知識。可以假設，這些積累起來的知識可能構成了常識的基礎。常識可以被看作是世界模型的集合，可以告訴我們什麼是大概率會發生的，什麼是可能發生的，以及什麼是不可能發生的。

這使得人類即使身處不熟悉的環境也能有效地制定計劃。例如，文章開頭提到的那個青少年可能以前沒有在雪地上開過車，但他知道雪地開車容易打滑，不能開得太猛。

常識不僅能讓動物預測未來的結果，還能填補時間或空間上缺失的信息。當司機聽到附近金屬碰撞的聲音時，他立即就能知道發生了事故，即使沒有看到涉事車輛。

人類、動物和智能系統使用世界模型的觀點可以追溯到幾十年前的心理學以及控制和機器人等工程領域。LeCun 提出，當今 AI 面臨的最重要的挑戰之一是設計學習範式和架構，讓機器以一種自監督的方式學習世界模型，然後利用這些模型進行預測、推理和規劃。他的大綱融合了各種學科的觀點，如認知科學、系統神經科學、最佳控制、強化學習和「傳統」AI，並將它們與機器學習中的新概念相結合，如自監督學習、聯合嵌入架構。

一種自主智能體系架構的提出

LeCun 提出了一個由六個獨立模塊組成的架構。假設每個模塊都是可微的，因為它可以很容易地計算某個目標函數相對於自己的輸入的梯度估計，並將梯度信息傳播到上游模塊。

上圖是一種自主智能系統的架構，配置器（Configurator）從其他模塊獲得輸入（圖中省略了這些箭頭）。

配置器（Configurator）模塊負責執行控制（executive control）：給定要執行的任務，可以通過調整這些模塊的參數來預先配置感知模塊（perception module）、世界模型（world model）、成本（cost）和當前任務的 actor。

感知模塊（Perception module）接收來自傳感器的信號並估計當前世界的狀態，對於給定的任務，只有一小部分感知到的世界狀態是相關和有用的。配置器模塊啟動感知系統，從感知中提取相關信息，完成手頭的任務。

世界模型（World model）構成了架構中最複雜的部分。它的作用是雙重的：（1）估計感知未提供的關於世界狀態的缺失信息；（2）預測合理的未來世界狀態。

世界模型可以預測世界的自然進化，或預測由 actor 模塊提出的一系列動作所導致的未來世界狀態。世界模型是一種與當前任務相關的世界部分的模擬器。由於世界充滿了不確定性，模型必須能夠代表多種可能的預測。比如接近十字路口的司機可能會減速，以防另一輛接近十字路口的車沒有在停車標誌處停下來。

成本模塊（Cost module）計算單個標量的輸出，該輸出預測智能體的不適（discomfort）程度。它由兩個子模塊組成：內在成本（intrinsic cost）是硬連接、不可變的（不可訓練的），並計算直接的不適（比如對智能體的損害、違反硬編碼的行為約束等）；批判（critic）是可訓練的模塊，預測內在成本的未來值。智能體的最終目標是最小化長期的內在成本。

「這就是基本的行為驅動力和內在動機所在，」LeCun 表示。因此它將考慮到內在成本，比如沒有浪費能源，以及手頭任務的具體成本。因為成本模塊是可微的，所以成本梯度可以通過其他模塊反向傳播，用於規劃、推理和學習。

actor 模塊計算動作序列的提議。「actor 可以找到一個最優的動作序列，最小化預估的未來成本，並以最優序列輸出第一個動作，這種方式類似於傳統的最優控制。」LeCun 說。

短期記憶模塊（Short-term memory module）跟蹤當前和預測的世界狀態以及相關成本。

世界模型架構和自監督訓練

該架構的核心是預測世界模型。構建它的一個關鍵挑戰是如何使它能夠表示多個看似合理的預測。現實世界並不是完全可以預測的：特定情況的演變有多種可能的方式，並且情況的許多細節與手頭的任務無關。我可能需要預測開車時周圍的汽車會有哪些動作，而不需要思考道路附近樹木中單個葉子的詳細位置。世界模型到底應該如何學習世界的抽象表示，從而保留重要細節，忽略不相關的細節，並且可以在抽象表示的空間中進行預測呢？

解決方案的一個關鍵要素是聯合嵌入預測架構（JEPA）。JEPA 捕獲兩個輸入 x 和 y 之間的依賴關係。例如 x 可以是一段視頻，y 可以是視頻的下一段。輸入 x 和 y 被饋送到可訓練的編碼器，這些編碼器提取它們的抽象表示，即 s_x 和 s_y。訓練預測器模塊以從 s_x 預測 s_y。預測器可以使用潛變量 z 來表示 s_y 中存在但 s_x 中不存在的信息。

JEPA 以兩種方式處理預測中的不確定性：（1）編碼器可能會選擇丟棄有關 y 的難以預測的信息，（2）當潛變量 z 在一個集合範圍內變化時，預測將在一組看似合理的預測結果範圍內變化。

那麼 JEPA 是如何訓練的呢？之前，唯一的方法是使用對比方法，包括顯示相匹配的 x 和 y 的示例，以及許多 x 和不匹配的 y 的示例。但是當表示（representation）是高維的時，這是相當不切實際的。過去兩年出現了另一種訓練策略：正則化方法。當應用於 JEPA 時，該方法使用四個標準：

使 x 的表示最大限度地提供關於 x 的信息

使 y 的表示最大限度地提供關於 y 的信息

使得從 x 的表示中最大限度地預測 y 的表示成為可能

讓預測器使用來自潛變量的、儘可能少的信息來表示預測中的不確定性。

這些標準可以以各種方式轉化為可微的成本函數。一種方法是 VICReg（方差 - 不變性 - 協方差正則化）方法。在 VICReg 中，x 和 y 的表示的信息內容通過將它們的分量的方差保持在閾值之上，並使這些分量儘可能地相互獨立來實現最大化。同時，該模型試圖使 y 的表示可以從 x 的表示中預測。此外，潛變量信息內容的最小化是通過使其離散、低維、稀疏或有噪聲來實現的。

JEPA 的精妙之處在於它自然地產生了輸入的充滿信息量的抽象表示，消除了不相關的細節，這些表示可以用來執行預測。這使得 JEPA 可以相互堆疊，以便學習具有更高抽象級別的表示，可以執行長期預測。

例如，一個場景可以在高層次上描述為「廚師正在製作可麗餅」。可以預測的是，廚師會去取麵粉、牛奶和雞蛋，把材料混合，把麵糊舀進鍋里，用油炸麵糊，翻轉可麗餅並重複上述過程。

在較低的層次上，傾倒麵糊（pouring a ladle）又可以分解為舀麵糊（scooping some batter ）和將其倒在平底鍋上（spreading it around the pan）。這些過程可以一直分解下去，具體到廚師手上每一毫秒的精確軌跡。在這種低層次的手部軌跡預測上，我們的世界模型只能在較短的時間範圍內給出準確的預測。但在更高的抽象層次上，它可以做出長期預測。

分層 JEPA 可用於在多個抽象層次和多個時間尺度上執行預測。訓練分層 JEPA 主要通過被動觀察，很少藉助交互。

嬰兒在出生後的頭幾個月主要通過觀察來了解世界是如何運行的。她了解到世界是三維的；有些物體在其他物體的前面；當一個物體被遮擋時，它仍然存在。最終，在大約 9 個月大的時候，嬰兒學會了直觀物理，例如不受支撐的物體會因重力而落下。

LeCun 和 Meta AI 希望分層 JEPA 可以通過觀看視頻和與環境交互來了解世界是如何運行的。通過訓練自己預測視頻中會發生什麼，JEPA 將產生世界的分層表示。通過做出一些動作並觀察結果，世界模型將學會預測其動作的後果，這將使其能夠進行推理和規劃。

感知 - 動作 episode

通過將分層 JEPA 訓練為世界模型，智能體能夠執行複雜動作的分層規劃，將複雜任務分解為一系列不太複雜和不太抽象的子任務，直到分解為效應器上的低層次動作。

下圖是一個典型的感知 - 動作 episode。該圖說明了兩層層次結構的情況。

感知模塊提取世界狀態的分層表徵（對應圖中 s1[0]=Enc1(x) ， s2[0]=Enc2(s[0])）。然後，在給定第二層 actor 提出的一系列抽象動作的情況下，多次應用第二層預測器來預測未來狀態。actor 優化第二層的動作序列以最小化總成本（圖中的 C(s2 [4])）。

這個過程類似於最優控制中的模型預測控制（Model-Predictive Control）。對第二層潛變量的多個 drawing 重複該過程，可能會產生不同的高級場景。由此產生的高級動作雖然不能構成真正的動作，但是定義了低層次狀態序列必須滿足的約束。

這也構成了子目標。整個過程在較低的層次重複：運行低層次預測器，優化低層動作序列以最小化來自上一層的中間成本，並對低層潛在變量的多個 drawing 重複該過程。一旦該過程完成，智能體將第一個低層次動作輸出到效應器，就可以重複整個 episode。

如果能成功構建這樣一個模型，那麼所有模塊都將是可微的，因此整個動作優化過程可以使用基於梯度的方法來執行。

更接近人類智能水平的 AI

LeCun 的願景中還存在許多艱巨的挑戰。其中最有趣和最困難的挑戰之一是實例化（instantiate）世界模型架構和訓練過程的細節。一定程度上，訓練世界模型將是未來幾十年人工智能取得實際進展面臨的主要挑戰。

然而，世界模型架構的許多方面仍有待定義，包括如何精確地訓練 critic、如何構建和訓練配置器（configurator）、如何使用短期記憶來跟蹤世界狀態和存儲歷史狀態等等。

創造像人類一樣有效學習和理解的機器是一項長期的科研工作，並且不能保證一定會成功。但基礎研究必將繼續加深機器對世界的理解，推進整個人工智能領域的發展。

參考內容：

https://ai.facebook.com/blog/yann-lecun-advances-in-ai-research/

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin.com

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

鑽石舞台

鑽石鑽石亮晶晶

機器之心 - 圖靈獎獲得者Yann LeCun：未來幾十年AI研究的最大挑戰是「預測世界模型」

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

機器之心 - 圖靈獎獲得者Yann LeCun：未來幾十年AI研究的最大挑戰是「預測世界模型」

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結