本文基於谷歌大腦團隊成員Been Kim於2022 ICLR 的主題演講。人工智能在許多場景得到應用,比如從序列中預測蛋白質的結構與功能(如 AlphaFold 和ProtENN),語義理解與語言生成(如 GPT-3 和 PaLM)等等。舉個例子,人工智能被用來幫助醫生對患者進行分類,並在醫生不在時提供輔助診斷。正如谷歌健康的自動視網膜疾病評估系統(ARDA)那樣,使用人工智能幫助醫護人員檢測糖尿病引起的視網膜病變。很明顯,在許多任務中我們都不得不與人工智能展開緊密合作。許多鄰域內的人才正聯手實現這一點,並取得了巨大的成功。然後,人工智能有時候會做一些我們無法理解的驚人的事情。例如,在2016年,AlphaGo 以著名的「move 37」擊敗了世界圍棋冠軍 LeeSedol。圍棋九段評論員稱「這是非常奇怪的一步棋,並將以此改變比賽的進程」。許多圍棋選手至今仍對此耿耿於懷,稱之為「超出所有人理解範圍的一步」。AlphaGo 是如何走出這一看似奇怪但卻決定了命運的一步?人工智能仍在繼續變得更複雜,更強大,更智能。如果我們能通過提問的方式,來了解人工智能是如何做出預測的那不是很好嗎?不幸的是,目前我們還沒有合適的語言來和人工智能交流。人工智能將做出愈發複雜和重要的決策,但是他們可能會在違背我們價值觀的不同的標準上做出這些決策。因此,我們需要一種與人工智能對話的語言,以實現人工智能能在符合社會準則的基礎上做出決策。Brian Christian 的書《The alignment problem》對此進行了很有意義的討論,書中指出,保持一致的問題的本質是意圖(我們追求的目標)和結果(我們輸入進人工智能的目標)之間的脫節。我很喜歡這本書,不僅僅是因為它引用了一些我的成果,還因為 Briam 一陣見血地指出:這門語言的最終目標是讓人工智能和我們的價值觀保持一直。就好比我們剛接觸一個新同事的時候,為了能更好地與他合作,我們都會通過言語交流來了解他的工作方式,長處和短處。我們和人工智能的工作關係也應該如此。直觀的說,人類所知道的事物的空間(即表徵空間,對人類有意義的東西)和機器所了解的不一樣,可能會有一些重疊,但很有可能大部分情況下,我們的了解和機器的了解相互獨立。例如,每種語言中的每個句子都可以被視為空間中的一個點,我可以說「貓很大」,你就會明白我的意思,然而「Go move 37」可能只存在於那些機器才能懂的表徵空間。理想情況下,這兩種空間會有一一對應的關係,但是這過於理想了。這甚至在兩個人之間都不會存在。表徵空間的錯位使得向機器表達和傳達我們的價值觀困難重重。這種人工智能語言的目的在於,通過於機器的對話和協作來擴展我們的認知,從而增加兩種表徵空間的重疊區域。了解更多關於機器的知識將使我們能夠製造出更符合我們期待的機器。這種語言可能一點也不像人類的語言。它可能沒有名詞,動詞或者句子,但它可能有一些能使我們與機器交互的元素或者媒介,比如圖像,像素或者概念。由於我們改變了語言需要精確到的方面,我們需要開發多種語言,每種語言都需針對要實現的目標。比如,如果我們正在一同建造一座大橋,那么正確的安全標準就很重要。如果我們正在協作撰寫一份外交文件,那麼在國際語境中了解一個詞的確切含義則至關重要。當然,語言的好壞取決於它協助達到目標的程度。人類已經為了不同的目標多次開發了不同的語言。比如我們發明數學語言來描述複雜且精確的理論,我們發明編程語言來傳達指令以供計算機執行。儘管我們還不清楚這種語言會是什麼樣子,但我們知道它應該滿足如下兩個條件:1.就像人類語言能傳達人們的思想一樣,這種語言要能反映機器的本質。2.這種語言要能擴展我們已知的知識,比如幫助我們理解 AlphaGo 的「move 37」。AlphaGo 的「move 37」是眾多機器決策的例子之一,這些決策超出了我們的表徵空間,這表明我們已經無法將機器分解為若干部分並完全理解每一個部分。這一點同樣在機器行為學中得到了很好的闡釋,且現已成為一個科研對象:我們必須同時在其獨立和與人類交互的兩種情況下同時研究它們的行為。我在 ICLR 的主題演講中介紹了我在這方面的一些工作,包括:研究機器與人類的知覺差異:機器的知覺是否會出現 Gestalt 現象?是的,但是只有當他們學會如何概括的時候[ https://arxiv.org/abs/1903.01069]。在當前的解釋方法中,哪些信息只有機器才能看到?又有哪些信息只有人類才能看到呢?有些人類看不到的信息在機器上很容易看到,反之亦然。這項工作的意義不僅局限於科學研究,還在於我們應該如何應用這些解釋[https://openreview.net/forum?id=SWlpXB_bWc]。基於子目標的解釋(展示森林與樹木)可以幫助人們更好地執行複雜的規劃任務,即使這些解釋在部署的時候並不是完美的。如果這些解釋僅用來訓練人來(而不是用於部署),那麼它們可以與完美解釋一樣好[https://arxiv.org/abs/2201.04204]。目前的解釋似乎對機器學習中大多數常見的調試問題沒有幫助(例如,測試時面對的訓練數據分布之外的數據,訓練時的標籤錯誤)。這些都有可能使我們看到虛假的相關性,但前提是你得懷疑這種相關性,並積極地測試它們[https://arxiv.org/abs/2011.05429]。我認為這是人工智能領域的下一個重大突破口:學習以前人類不知道的新表徵和概念。通過擴展我們的表徵空間以形成新的見解,不僅能在效果方面取得重大提升,還能幫助我們從不同的視角看待問題——無論是學術概念上的問題還是複雜的預測問題。很自然,學習新知識是很困難的過程,我們需要一場能在人和機器之間交互的對話。1、TCAV 及其他相關:使用高級人類概念進行解釋的通用工具[https://arxiv.org/abs/1711.11279],通過發現新的概念來擴展我們的知識[https://arxiv.org/abs/2105.15164]。2、AlphaZero:研究一種特殊的超人象棋機器:AlphaZero。AlphaZero 確實包含了人類象棋的概念,但在整個訓練過程中,它們的啟動與演變方式存在着許多的差異[https://arxiv.org/abs/2111.09259]。3、概念相機:通過使用機器來激發我們的創造力。利用我們和機器看待世界的方式的差異,從不同的角度創造藝術[http://beenkim.github.io/conceptcam]。在向人工智能傳達我們的意圖或者理解人工智能方面,我們已經做出了很多努力,在本節中,我們將努力總結這些努力與針對這種語言的努力之間的區別。制定機器優化的目標函數或者在部署時進行測試是我們當前與機器通信的方式,這都很重要,但是還遠遠不夠。我們目前還不知道目標函數或者測試集帶來的全部影響,因為我們只能了解我們表徵空間中的內容。可能還有更大的部分我們根本看不到。假設我們在模型中添加了一項公平性指標,我們這樣做的初衷是好的,但是這一指標最終可能會在我們意識不到的情況下歧視其他群體,產生數據偏見。更糟糕的是,直到出現了問題我們才能意識到這種偏見。我們也不能僅僅收集和優化所有的指標,因為一些公平性指標在數學上被證明是不兼容的。當我們知道要測試什麼時,單獨的測試有時候已經足夠好了。就像我們上飛機時我們並不需要了解整架飛機和所有的情況,因為有足夠的經驗和證據表明我們很可能在這次飛行中倖存。但是對於人工智能,我們還沒有足夠的經驗和證據,甚至不知道要測試些什麼。即使我們知道要測試什麼,完美的測試就算不是不可能,也會十分困難。就像軟件工程中 100% 的測試覆蓋率一樣。可解釋性是機器學習研究的一個子領域,旨在構建我們與人工智能的關係,使後者具備可觀性(例如,「機器為什麼要預測X」)和可控性(例如,「該怎麼調整輸入,以調整預測X」)。為解釋性開發的工具很有用,但它們需要了解這些機器的本質。讓我們來看一個例子,它說明了遺漏完整信息可能會對可解釋性產生的影響。在圖中,最中間和最右邊的圖像是顯著性圖的示例,這是一種常用的解釋方法。對於圖像分類模型,每個像素都被分配一個權重數字,表明他對預測的重要性。這兩張圖片都有意義,因為它們似乎都突出了鳥在圖片中的位置。然而,這兩張圖片中的一張是完全未經過訓練的,你能猜出是哪一張嗎?事實是我們很難回答這個問題,這表明,應該用來解釋預測的說明,似乎與所說的預測無關。兩個網絡基於不同的邏輯做出了根本不同的預測決策。(答案是最右邊的圖片)。我們的社區(包括我自己)被這種現象蒙蔽了雙眼,部分原因是認知偏見。這些解釋對我們來說很有意義!我們花了很多年才偶然發現了這種現象。儘管做了大量的後續工作,我們仍然沒有完全理解這一現象。這是因為信息在那裡,但是我們就是看不到嗎?(可能是因為我們使用了錯誤的媒介——像素?)還是這些方法完全錯了?然而,這些方法又被證明對某些任務是有用的…這項工作指出的是,我們對這些解釋所顯示的內容以及它們可以用於什麼和不可以用於什麼任務的基本理解存在巨大差距。請注意,這並不意味着我們必須停止所有的工業界工作和首先關注基礎(科學)。人類一直在同時追求它們(例如在生物學領域)。有時,其中一個發生在另一個之前,通常會產生協同效應。我們將採用類似的方法來開發一種人工智能語言。這似乎很令人驚訝,但我聽到一些人說「我們只是讓人工智能做他能做的」他們說我們不需要可解釋性,並且不應該無條件地批評它而不提供其他的選擇。我把這歸為過度的自信和無知;有些人認為人工智能是可以控制的,因為是我們創造了人工智能(例如,我們知道神經網絡所有的權重信息)。應該清楚的是,這種過度的自信是危險的:它給了我們虛假的解脫,更重要的是給了我們一個藉口不去深入研究這些機器「真正」在做什麼。在現實世界中,這些機器的真正功能可能令人驚訝。例如,虛假的相關性是人類事先沒有意識到的。這種過度自信和無知也可以給人們一個藉口,說「我沒有工具來調查那起災難性的失敗案例」。人工智能不僅僅是一種工具。我們將受到它的影響,反過來其也將影響下一代人工智能。如果沒有一種語言與它進行有意義的交流,我們就無法理解它的決定,因此也就不知道我們在創造什麼。建立一種與人工智能交流的語言並不容易,但坦率地說,這是控制我們想要的生活的唯一途徑。語言塑造我們的思維方式。我們有機會塑造自己的思維和未來的機器。
鑽石舞台 發表在 痞客邦 留言(0) 人氣()