close
選自simonsfoundation.org
作者:Grace Lindsay
機器之心編譯
編輯:張倩

幾十年來,判別式和生成式方法這兩種理解視覺處理的方式引導研究人員走上了不同的道路,但現在二者正融合在一起。


一直以來,視覺系統方面的許多基礎工作都以一種非常簡單的方式實現:向動物展示圖像,測量其神經元的反應,展示另一個,然後重複。

這樣的方法建立在一種假設之上:視覺處理可以理解為一種死記硬背的輸入輸出轉換。科學家們研究細胞時,好像它們只是根據圖像中存在的視覺特徵做出反應,然後可以使用這些反應來區分不同的圖像。

雖然這種對視覺系統的理解在很多方面都取得了豐碩的成果,但它總是讓一些研究者產生懷疑。一部分人認為,視覺系統的解剖結構和動力學研究結果表明,它不是簡單地以「自下而上」的方式做出反應。相反,它可能會基於一個反映世界運行模式的模型生成一些反應。

這種「判別式(discriminative)」與「生成式(generative)」視覺方法之間的爭論已經持續了數十年。儘管這兩種模型都旨在解釋視覺處理過程,但這兩種方法源於不同的哲學和數學傳統。這種狀況導致的後果是,不同的研究人員只使用他們自己喜歡的方法,而不是合作,因此在這兩種範式之間產生了一條鴻溝。

近年來,計算機視覺和計算神經科學的進步都表明了這種二元劃分方法的局限性,推動了更廣泛的視覺處理建模的發展。這就需要雙方的代表走到一起,理清各自的觀點以及雙方的共識和分歧所在。

2021 年 9 月,在虛擬認知計算神經科學 (CCN) 會議的「生成對抗協作(GAC)」開幕活動上,研究人員提交了關於這一主題的提案。

「生成對抗協作」是 CCN 在 2020 年發起的一項流程,旨在讓研究者明確、有效地提出科學上的分歧。研究人員可以向 CCN 提交一個有爭議的主題提案,少數提案會被選中,進入 GAC 活動的討論範圍。次年,GAC 組織者會提交一份立場論文,列出這些主題領域的進展計劃,並在當年的會議上展示該進展。

2021 年的 GAC 有關於視覺系統中的生成和判別模型的主題,由 11 名研究人員組成了一個團隊。有些人使用判別方法,有些人使用生成方法,但所有人都對探索兩者之間的交集感興趣。根據他們的提議,這個活動旨在確定「我們的知識遺產是否過度地分化了我們對視覺算法的直覺,使我們陷入了錯誤的二分法之中。」

「簡單快速」與「靈活慢速」

為了構建辯論框架,首先有必要知道什麼是判別系統和生成系統。但也許這就是第一個分歧點。

在統計領域,判別模型和生成模型有簡單的定義。判別模型是在給定觀察結果的情況下計算潛在變量或潛在原因的概率的模型。就視覺處理而言,這些潛在變量就是世界上的物體,而觀察結果就是撞擊視網膜的光。例如,模型會對圖像中的像素進行一些計算,以確定哪些對象最有可能存在。相反,生成模型是計算潛在變量和觀察結果的聯合概率。這需要知道某些物體在一般情況下存在的可能性,而不僅僅是它們在給定圖像中的可能性。

雖然這些不同概率分布的計算在技術上完全不同,但當這些計算映射到大腦時,兩者之間的界限開始變得模糊。「如果你仔細觀察,一切都會崩潰,」哥倫比亞大學神經科學家、GAC 發言人 Niko Kriegeskorte 說。該領域缺乏對生成模型和判別模型的嚴格定義,神經科學研究文獻中出現的內容則更好地被描述為一組鬆散的關聯。

代表判別一面的模型往往是前饋的、簡單的和快速的。例如,深度前饋卷積神經網絡就是判別處理的典範。這些模型通常以有監督的方式進行訓練:它們學習將圖像映射到標籤,例如學習對貓和狗的圖像進行分類。生成的模型可以接收新圖像並快速標記它。像這類網絡這樣的判別系統通常以自下而上的方式工作,形成對其直接輸入的簡單響應。由於它們的訓練方式,它們也被認為專門用於特定任務,例如物體識別。

相比之下,生成模型速度很慢,但它們也更靈活、嚴謹,且更具表現力。它們通常依賴於無監督的訓練方法,目的是獲得對世界統計數據和結構的基本了解,然後將其用於預測。例如,在貓比狗更常見的世界中,生成模型可能會使用爪子的視覺景象來預測長鬍鬚也是存在的,並最終得出圖像中有貓的結論。在結構上,這些模型更有可能具有循環連接(recurrent connection),特別是來自更高視覺區域或將預測信號傳送到視覺系統的額葉皮層的自上而下的連接。它們也更有可能用概率分布來表示信息,這可能導致與任何給定視覺感知相關的不確定性。

科學家們有理由相信這兩種過程都可能在大腦中發揮作用。生成方法的支持者指出其直觀的吸引力和與內省(introspection)的一致性。畢竟,我們能以心理意象和夢境的形式產生視覺感知;如果沒有任何自上而下的影響或內部世界模型,這種現象是不可能發生的。學習有關世界如何運行的一般原則也可以使生成系統更適應新環境。

在 GAC 活動期間,麻省理工學院的神經科學家和西蒙斯全球大腦合作組織 (SCGB) 的研究員 Josh Tenenbaum 在他的演講視頻中應用了圖像過濾器來說明這一點:因為我們的視覺系統知道視頻可以使用不同的視覺效果進行過濾,例如顏色和對比度的變化,所以即使它們對我們來說是新的,我們還是能夠識別應用了這種效果的圖像內容。

判別式方法的支持者指出,它在解釋神經數據方面取得了切實的成功。經過訓練以對圖像進行分類的深度卷積神經網絡提供了一些最佳模型,用於預測響應複雜視覺輸入的真實神經活動。我們也知道,視覺系統的前饋路徑可以非常快速地實現對象分類,這與判別模型是一致的。

這兩種模式處於不同的發展階段,很難比較它們的優勢。當前的判別模型可以在實際用途中處理圖像,這讓它比生成模型更具優勢。然而,這可能更多地反映了研究人員可以在計算機上做的事情,而不是大腦可以做的事情。目前,生成模型很難訓練和構建,並且只能運行在玩具問題上,而不是視覺系統面臨的真實挑戰。如果沒有像今天的判別模型一樣擅長圖像處理的模型,生成方法就沒有機會在神經活動的定量預測上擊敗判別模型。它們之間的這種對比有點像將今天的汽車與自動駕駛汽車的對比。自動駕駛汽車可能有一些不錯的功能,但如果你今天需要四處奔走,它們不會有太大幫助。

「歸根結底,你必須有一個模型來測試,」麻省理工學院的神經科學家和 SCGB 研究員 Jim DiCarlo 說。在 GAC 活動中,代表判別一方的 DiCarlo 展示了在目標識別上訓練的判別模型預測神經活動的強大能力。「一旦有人建立了一個新的圖像計算模型,只有當時實驗數據才能用來判斷該模型相對於其他模型的準確性。」

在某種程度上,這從工程的維度減少了關於生成方法與判別方法的爭論。即使生成方法具有很多直觀的積極意義,研究人員仍然需要讓它們在實踐中發揮作用,以便與大腦活動進行大規模比較。目前,它們還不能。但生成模型也並不總是處於劣勢。鑑於其種種特性,尤其是它們在沒有太多標記數據的情況下進行訓練的能力,機器學習研究人員希望它們在未來變得有用。

「重要的是,我們不要將我們認為容易或現在可以做的事情,與大腦可以做的事情混為一談。」羅切斯特大學的神經科學家 Ralf Haefner 在活動中說。

探索的十字路口

正如 GAC 小組成員指出的那樣,許多模型並不完全適合某個類別或其他類別。循環判別模型是存在的,一些生成模型也可以很快,諸如此類。哥倫比亞大學的神經科學家 Benjamin Peters 在討論中說,強制讓大腦被統計學家和工程師定義的盒子所框住是有風險的。「我們不應該過於刻板,而應該從算法中汲取靈感。」

例如,視覺系統可以使用判別組件來實現快速和輕鬆的視覺感知,但仍包含生成元素以實現更深層的功能。或者,一個內置的生成模型可以利用它對世界的預測,來幫助為大腦的判別部分提供訓練數據。哈佛大學的神經科學家 Talia Konkle 在她的演講中主張承認感知和認知之間的分離,感知是一種判別過程,而認知是一種更具生成性的過程。

一些混合方法在機器學習領域已經很流行。例如,在對比學習這種訓練方式中,網絡學習對相似的事物進行分組(例如同一圖像的不同剪裁片段),並區分不同的事物。這種方法具有生成組件 —— 訓練不需要顯式的目標標籤,它創建的表示可以捕獲數據中大量的相關統計信息。同時,它也能很好地應用於判別模型的典型前饋結構。它確實學會了區分相似和不同的圖像。

鑑於這些模型可能屬於同一個範圍,一些研究人員質疑關注二元劃分是否有意義。「這些真的是我們想要收斂的項嗎?」DeepMind 的 Kim Stachenfeld 問道。科學家和工程師們承認,生成式處理和判別式處理之間的明確區分對於構建一個有效的系統來說並不是必需的。這種區分也不是理解大腦所必需的。「如果你認為這是一個非此即彼的問題,那你就錯失了重點,」Kriegeskorte 說。「我不確定 10 到 20 年後我們是否還會在這種二元劃分方法中考慮這個問題。」

GAC 的部分目的是探索判別式與生成式模型之間的分歧,以此作為推動該領域向前發展的一種手段。

Stachenfeld 認為,這種嘗試是有用的,即將視覺系統的方法組織到兩個陣營中,然後「看看還剩下什麼」,從兩個陣營之外的東西可以看出這個領域還需要什麼樣的新術語和新想法。其他人也認為,這次討論有助於闡明哪些特徵對於每種類型的建模方法是真正必要的,以及如何在大腦中考慮每種思路的證據。Kriegeskorte 指出,在使用這些模型的術語時,他現在「避免了過去經常犯的愚蠢錯誤」。

這些概念上的進步是否重要?真正的考驗將是它們對實驗的影響程度。Kriegeskorte 表示,實驗設計是一個很難取得真正進展的領域。

加州理工學院的神經科學家和 SCGB 研究員 Doris Tsao 提出了一種實驗途徑:分離神經系統的生成組件,並在沒有關於當前世界狀態的前饋輸入的情況下研究其對神經活動的影響。先前對胼胝體(連接左右大腦半球的橫行神經纖維束)病變患者的研究提供了一些提示。在兩個半球之間通路的一部分被切斷的情況下,研究人員通過左眼向右半球展示「騎士」之類的詞,會導致患者(藉助左半球反饋連接的影響)描述騎士的視覺場景,即使沒有任何視覺刺激或有意識地意識到這個詞。Tsao 認為,在動物身上進行的類似實驗可以幫助確定自上而下的生成路徑,這些路徑負責讓人聯想到這種圖像。然而,對於生成系統的人工隔離是否有助於闡明其在正常情況下的功能,GAC 參與者存在分歧。

大多數參與者都同意需要更多關注大腦生成能力的實驗。賓夕法尼亞大學的神經科學家和 SCGB 調查員 Nicole Rust 提出了研究視覺預測的論點,例如預測視頻中接下來會發生什麼的能力。DiCarlo 說,受到生成處理優點的啟發,他打算做更多的實驗。

在接下來的一年裡,該小組將繼續討論推進研究的具體步驟,並通過出版物和活動與更廣泛的社區分享他們的進展。

原文鏈接:https://www.simonsfoundation.org/2021/12/22/reaching-across-the-aisle-to-find-the-algorithms-of-vision/

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()