close
大數據文摘授權轉載自AI科技評論
來源:ZDNet
編譯:錢磊
編輯:陳彩嫻

繼自監督學習之後,Yann LeCun 在接受 ZDNet 的最新訪談中又着重探討了他在幾年前曾大篇幅推崇的概念:「能量模型」(energy-based models)。

什麼是能量模型?

Yoshua Bengio、 Ian Goodfellow 和 Aaron Courville 等人在2019年出版的《深度學習》(又稱「花書」)一書中將「概率函數」定義為「描述了一個或一組隨機變量呈現其每種可能狀態的可能性大小」,而能量模型則簡化了兩個變量之間的一致性。能量模型借用統計物理學的概念,假設兩個變量之間的能量在它們不相容的情況下上升,在一致的情況下則下降。這可以消除將概率分布「標準化」過程中出現的複雜性。

在機器學習領域,能量模型是一個「老」概念,至少可以追溯到20世紀80年代。但近年來,越來越多成果使能量模型變得更可行。據ZDNet報道,近年來隨着對能量模型的思考不斷深入,LeCun圍繞該概念做了幾次演講,包括2019年在普林斯頓高等研究院的一次演講。

最近,LeCun在兩篇論文中描述了能量模型的研究現狀:一篇是 LeCun 與Facebook AI 實驗室(FAIR)的同事於去年夏天共同發表的「Barlow Twins」;另一篇則是他與 FAIR、Inria 合作發表於今年1月的「VICReg」。

正如LeCun在採訪中所說,他目前的研究與量子電動力學有一些有趣的相似之處,儘管這不是他的重點。他關注的重點是人工智能系統的預測可以進步到何種程度。

LeCun自己開發了一種叫做「聯合嵌入模型(joint embedding model)」的現代能量模型,他相信這能為深度學習系統帶來「巨大的優勢」,這個優勢就是「抽象表示空間中的預測」。

LeCun認為,這種模型為「預測世界的抽象表徵」開闢了道路。抽象預測能力是深度學習系統廣義上的發展前景,當系統處於推斷模式時,這種抽象預測機器的「堆棧」可以分層生成規劃場景。

這種模型可能是實現LeCun心目中的統一「世界模型」的重要工具,而這種統一的「世界模型」將推進實現他心目中的自主人工智能,自主人工智能能夠通過對場景之間的相關性和圖像、語音和其他形式輸入數據的相關性建模來進行規劃。

以下是ZDNet與LeCun通過Zoom的對話記錄,內容有所編輯:

自監督學習 vs. 無監督學習

ZDNet:首先,為了幫助我們學習,請談談您經常說的機器學習中的「自監督學習」和「無監督學習」。無監督學習和自監督學習的關係是什麼?

Yann LeCun:嗯,我認為自監督學習是一種特殊的無監督學習方式。無監督學習這個術語有點複雜,在機器學習的背景下不是很好定義。當提到無監督學習時,人們會想到聚類算法和PCA(主成分分析),以及各種可視化方法。

而自監督學習基本上是去嘗試使用對於非監督學習來說相當於監督學習的方法:也就是使用了監督學習方法,但訓練的神經網絡沒有人為提供的標籤。
比如說我們可以取一段視頻,給機器看一段視頻片段,然後讓它預測接下來會發生什麼。或者也可以給機器看兩段視頻,然後問它這個視頻是另一個視頻的後續嗎?我們要做的不是讓機器預測後續,而是讓它告訴你這兩個場景是否相容。或者向機器展示同一個物體的兩個不同的視圖,然後問它,這兩個東西是同一個物體嗎?在你給系統的所有數據基本上都是輸入數據的情況下,自監督學習本質上沒有真人的監督。

ZDNet:近年來您做了幾次演講,包括2019年在新澤西州普林斯頓高等研究院(IAS)的演講,以及最近2月份百度主辦的關於深度學習基於能量的方法的演講。這些基於能量的模型屬於非監督學習的自監督部分嗎?

YL:是的。基於能量的模型中一切都能被假設。比如我給你X和Y;X是觀察,模型應該捕獲Y關於X的相關性。例如,X是一個視頻的片段,Y是同一視頻的另一個片段,向系統展示X和Y,系統就應該告訴我Y是不是X的後續。或者說給系統展示兩張圖片,系統就應該告訴我兩張圖是彼此相關還是兩張完全不同的圖片。能量衡量的是相容性或不相容性,對吧?如果X和Y是相容的,能量就是零,如果能量比較大,那X和Y就是不相容的。

我們有兩種方法來訓練基於能量的模型。第一種方式是向模型展示一對相容的X和Y,第二種是向模型展示一對不相容的X和Y,比如連不上的兩個視頻片段,兩個根本不相同的物體的圖片。對於這些不相容的XY對,我們需要設置高能量,而對於相容的XY對則降低能量值。

這是對比的方法。至少在某些情況下,我發明這種對比方法是為了一種叫做「孿生網絡(siamese nets)」的自監督學習方法。我以前很喜歡這種方法,但現在我改變主意了。我認為這種方法註定要失敗。我不認為對比方法無用,但肯定是有不足之處的,因為這種方法不能很好地適應這些東西的維度。正如那句名言:幸福的家庭都是相似的;不幸的家庭各有各的不幸。

兩個圖像相同或相容的情況比較少,可是兩幅圖像卻可以有很多不同的地方,而且空間是高維的。所以,基本上我們需要指數級量的對比能量樣本來推動這些對比方法的工作。對比方法仍然很受歡迎,但在我看來這種方式的能力真的很有限。所以我更喜歡非對比法或者所謂的正則法。


而這些方法都是基於這樣一種想法,即構造能量函數時,你賦予其低能量值的空間體積是有限的。這可以用損失函數或能量函數中的一個術語來解釋,這個術語指的是最小化空間的體積,空間體積就可以某種方式使能量降低。
我們有很多這樣的例子,其中一個例子就是積分稀疏編碼,這個概念可以追溯到20世紀90年代。近來我真正感到有興趣的是那些應用於自監督學習的非對比方法。

能量模型是未來的方向嗎?

ZDNet:你在演講里討論過"正則化的基於潛變量能量的模型"(regularized latent variable energy-based model),也就是 RLVEB。你認為RLVEB就是未來的發展方向嗎?RLVEB是否能引領2020年代或者2030年代的發展?

YL:讓我這麼說吧:自從卷積網絡之後,我對機器學習的東西就沒那麼感興趣了。(笑)我不確定RLVEB是不是新的卷積,但我對此真的很興奮。
當我在IAS演講時,我滿腦子都是RLVEB。RLVEB是生成模型,如果你想把它應用到視頻預測之類的任務上,你給它一段視頻,可以讓它預測下一段視頻。

在過去的幾年裡,我也改變了我的想法。現在,我最喜歡的模型不是從X預測Y的生成模型,而是我所謂的聯合嵌入模型。我們取X,通過一個編碼器運行它(如果你想的話,也可以用一個神經網絡來運行);取Y,並通過另一個編碼器運行它;然後預測就會發生在這個抽象的表示空間中。這就是一個巨大的優勢。

為什麼我改變了主意?我改變主意是因為我們之前不知道該怎麼做。現在我們有一些方法可以派上用場。這些方法是在過去的兩年中出現的。我正在推動的實際上有兩個方法:一個叫VIC-REG,另一個叫Barlow Twins。

ZDNet:那麼在接下來的5到10年裡,你認為我們會在這方面看到什麼進展呢?

YL:我認為現在我們至少有了一種方法來讓我們研究可以學習在抽象空間中進行預測的系統。在學習抽象預測的同時,系統也可以學習預測在抽象空間中隨着時間或狀態的變化會發生什麼。對於一個自主的智能系統來說,這是非常重要的部分,例如,系統有某種世界模型,可以讓你提前預測世界將會發生什麼,也可以預測行為的後果。因此,給定對世界狀態的估計以及你正在採取的行動,系統會給到你一個在你採取行動後世界狀態的預測。

圖註:基於能量的模型:「VICREG」是「自監督學習的方差-不變性-協方差重新正則化(Variance-Invariance-Covariance Re-Gularization For Self-Supervised Learning)」的縮寫,是LeCun在基於能量的神經網絡架構上的最新研究成果。一組圖像在兩個不同的管道中轉換,每個扭曲後的圖像會被發送到編碼器,該編碼器實質上是對圖像進行壓縮。然後,投影儀(也被稱為「擴展器」)會將這些壓縮的表示解壓成最終的「嵌入」,即 Z 維。正因為這兩種嵌入之間的相似性不受其扭曲的影響,程序才能夠找到合適的低能量級別去識別出某些東西。(圖源:FAIR)

這個預測還取決於一些你無法觀察到的潛變量。比如,當你開車的時候,你的前面有一輛車。這輛車可能剎車,可能加速,左轉或右轉。你不可能提前知道車輛的情況,這就是潛變量。所以整體架構是這樣的,取最初的視頻集X和未來的視頻Y,將X、Y嵌入到某個神經網絡中,從而得到X和Y的兩個抽象表示。然後在這個空間裡做一個關於某個潛變量的基於能量的預測模型。

重點是,這個模型在預測世界抽象表示的時候,是不能預測世界上所有的細節的,因為這個世界上的很多細節可能是不相關的。在路上駕車的時候,可能會在路邊的一棵樹上看到一片葉子上非常複雜的部分。模型是絕對不可能預測這個的,或者說你也不想投入任何精力或資源來預測這點。所以這個編碼器本質上可以在被問到之前就消除這些信息。

ZDNet:你認為在未來的5到10年會出現一些具體的里程碑嗎?或者目標?


YL:我預見到的是,我們可以使用「JEPA」(Joint Embedding Predictive Architecture)架構來了解世界的預測模型,以一種自監督的方式學習感知表示而又不需要為特定的任務訓練系統。因為系統學習了X和Y的抽象表示,我們可以把它們堆疊起來。所以,一旦我們學會了對周圍世界的抽象表示,能夠做出短期預測了,我們就可以疊加另一層,從而可以學習更抽象的表示並獲得做出長期預測的能力。

所以讓系統通過觀察和觀看視頻來了解世界是如何運作是很重要的。因為嬰兒基本上是通過觀察這個世界來學習的,學習直觀的物理,學習我們所知道的關於這個世界的一切。動物也會這樣做。我們想讓我們的機器通過觀察來學會了解世界是如何運作的。但是到目前為止,我們還沒有做到這一點。因此在我看來,使用JEPA並以分層的方式檢查它們,是實現系統觀察學習的途徑。

JEPA能給予深度學習機器的另一個好處是推理能力。目前有一個爭議:深度學習擅長的只有感知,因為輸入和輸出是明確的。但如果你想要一個系統具備推理能力與規劃能力呢?世上存在具備一定的推理和規劃能力的複雜模型,但這樣的模型並不多。

那麼,我們如何讓機器去規劃呢?如果我們有一個世界預測模型,如果我們有一個能讓系統預測自己行為後果的模型,就可以讓系統想象其行動路線並預測將會產生的結果。然後將這些信息提供給一些內部函數,這些函數會描述某個任務是否已完成。接着,通過優化,可能使用梯度下降法找出使目標最小化的一系列行動。我們現在不是在討論學習;我們現在討論的是推理與規劃。事實上,我現在描述的是一種經典的計劃和模型預測控制的最優控制方法。

最優控制的不同之處在於,我們用的是一個經過學習的世界模型,而不是一種固定的模型。我們的模型包含了所有可以處理這個世界的不確定性的變量,因此可以成為自主智能系統的基礎,能夠預測未來並計劃一系列行動。

我想從這裡飛到舊金山,那我就需要去機場,趕飛機等等。要去機場,我就需要離開我的大樓,沿着街道走一段,然後打一輛出租車。要離開我的大樓,我就需要離開我的椅子,走向門,打開門,走向電梯或樓梯。要做到走向電梯或者樓梯,我需要弄清楚如何把這些動作分解成一毫秒一毫秒的肌肉控制。這就叫做分層規劃。我們希望系統能夠做到這一點,但目前我們還不能真正做到如此。這些通用架構可以為我們提供這些東西。這是我的希望。

能量模型與其他方法之間的千絲萬縷


ZDNet:你描述能量模型的方式聽起來有點像量子電動力學的內容,比如 Dirac-Feynman 路徑積分或者波函數。這只是一種比喻,還是說也許這兩者實際上是一致的?

YL:這並不是比喻,而且兩者其實是有些不同的,並非完全一致。比如你有一個潛變量,這個潛變量可以取很多不同的值,通常你要做的就是遍歷這個潛變量所有可能的值。這可能有些不切實際。所以你可以從某個分布中對潛變量抽樣,然後計算可能結果的集合。但是,實際上你最終要計算的是一個代價函數,這個代價函數給出了一個你對潛變量的可能值求平均的期望值。這看起來很像一個路徑積分。路徑積分實際上就是計算多條路徑的能量之和,至少在傳統意義上是如此。在量子方法中,你不是在把概率或分數相加,而是在把複數相加,而複數可以互相抵消。雖然我們一直在考慮這樣的事情(至少我一直在思考同樣的東西),但我們的研究中沒有這樣的內容。
這個在上下文中沒有用到,但是潛變量的邊際化和路徑/軌跡的總和是非常相似的。

ZDNet:你曾做出兩個相當驚人的斷言。一是深度學習的概率方法已經過時。二是你說你正在討論的基於能源的模型與20世紀80年代的方法有一些聯繫,例如 Hopfield 網絡。請問能詳細說明一下這兩點嗎?


YL:我們需要放棄概率模型的原因是,我們可以對兩個變量X和Y之間的相關性建模,但如果Y是高維的,如何表示Y上的分布呢?我們真的不知道該怎麼做。我們只能寫出一個非常簡單的分布,一個高斯分布或者高斯分布的混合分布之類的。如果你想用複數概率去度量,我們不知道怎麼做,或者說我們知道的唯一方法就是通過能量函數去度量。所以我們只能寫一個能量函數,其中低能對應着高概率,高能對應着低概率,這就是物理學家理解能量的方式,對吧?問題是我們一直不太理解如何標準化。統計學、機器學習和計算物理學等領域裡有很多論文都是有關如何解決這個棘手問題的。

我所倡導的是忘掉概率模型,只考慮能量函數本身。它甚至不需要使能量變成可以標準化的形式。最終的結果是,你應該有一種損失函數,當你訓練你的數據模型,使得相容的能量函數低而不相容的能量函數高的時候,你就把損失函數最小化。就是這麼簡單。

ZDNet:和Hopfield網絡之間的關係呢?

YL:Hopfield 網絡和 Boltzmann 機器當然與此相關。Hopfield 網絡是以一種非對比的方式訓練的能量模型,但效率很低,所以沒什麼人用Hopfield 網絡。

Boltzmann 機器基本上是Hopfield網絡的一個對比版本, 你得到數據樣本並降低其能量,你生成其他樣本並提高其能量。這種方法在某種程度上更令人滿意,但也不是很有效,因為這種對比的方法不能很好地擴展。因為這個原因,這個方法也沒有被使用。

ZDNet:那麼,正則化的、基於潛變量能量的模型(RLVEB)真的可以被認為是Hopfield 網絡的2.0版本嗎?

YL:我不那麼認為。

「意識是人類大腦局限性的結果」


ZDNet:你提出了另一個相當驚人的論斷,即「只有一個世界模型」並認為意識是人類大腦中「一個世界模型的刻意配置」。你說這可能是個瘋狂的假設。這是你的猜想嗎?這到底是一個瘋狂的假設,還是有什麼證據可以證明呢?在這個案例里有什麼證據呢?

YL:這是個猜想,一個瘋狂的設想。任何關於意識的東西,在某種程度上都是猜想。因為我們一開始並不知道意識是什麼。我認為意識是一種錯覺。
我想表達的是,意識被認為是人類和一些動物擁有的一種能力,我們認為意識體現了這些生物的智慧,這有點可笑。我認為意識是我們大腦局限性的結果,因為我們的大腦中有一個單一的、類似於世界模型的引擎,我們需要一些東西來控制這個引擎,這個東西就是意識。於是我們產生了人類有意識的錯覺。如果我們的大腦變得無限大,不再有限制,我們就不需要意識了。

至少有一些證據表明我們腦中或多或少存在一個單一的模擬引擎。比如,我們基本上在同一時間只能嘗試一項意識任務,我們專注於任務,我們會想象我們計劃的行為的後果。你一次只能做一件事,或者你可以同時做多件事,但這些多個任務是我們訓練自己不用思考就能完成的潛意識行為。比如我們可以一邊開車一邊和身邊的人說話,只要我們練習開車的時間足夠長,開車就已經成為一種下意識的行為。所以在剛開始學開車的幾個小時裡,我們做不到一邊開車一邊說話,我們必須集中精力才能完成駕駛,因為我們必須使用我們的世界模型預測引擎來找出所有可能發生的可怕情況。

ZDNet:如果這只是一種猜想,那麼它對你目前的工作並沒有什麼實際意義,不是嗎?

YL:不,有一定意義。我提出的這個自主人工智能模型有一個可配置的世界模型模擬引擎,其目的是規劃和想象未來,填補你無法完全觀察到的空白。可配置的單一模型會帶來計算優勢,可以讓系統在任務之間共享知識,這些知識是你通過觀察或基本邏輯之類的東西學到的。使用你配置的大模型要比使用一個完全獨立的模型來處理不同的任務要有效得多,因為不同的任務可能需要單獨訓練。但是我們已經看到了,對吧?以前在Facebook(當Meta名字還叫Facebook)的時候,我們用視覺來分析圖像,做排序和過濾,基本上對於不同的任務,我們都有專門的神經網絡和專門的卷積網絡來解決。而現在我們有一個大的網絡,什麼任務都能處理。我們以前有好幾個ConvNets,現在我們只有一個。

我們看到了這種簡化。我們現在甚至有可以做所有事情的架構:同一個架構就可以處理視覺、文字、口語。這種架構必須分別接受三個任務的訓練,而這個架構 data2vec,是一種自監督的方法。

ZDNet:真有意思!感謝你的分享。

原文鏈接:

https://www.zdnet.com/article/metas-ai-luminary-lecun-explores-deep-learnings-energy-frontier/


點「在看」的人都變好看了哦!
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()