AI科技評論 - 2021谷歌年度AI技術總結 | Jeff Dean執筆萬字展望人工智能的5大未來趨勢！－鑽石舞台

Feb 17 Thu 2022 18:02
AI科技評論 - 2021谷歌年度AI技術總結 | Jeff Dean執筆萬字展望人工智能的5大未來趨勢！

‍

機器學習正在並且也將變得無處不在。‍‍

‍編譯丨杏花、莓酊、王曄

編輯丨‍青暮

又是一年一度的谷歌年度盤點，Jeff Dean再次執筆，為我們回顧過去一年來谷歌在5大方向的研究進展以及未來趨勢。

Jeff Dean表示，「在過去幾十年裡，我們見證了機器學習和計算機科學領域的許多重大變化。早期方法的失效促進了現代方法的誕生，並被證明非常有效。」

按照這種發展模式，他認為，我們將在未來幾年內見證一些「令人興奮的進展」，這些進展最終將造福數十億人的生活，產生比以往任何時候都更大的影響。

在這篇文章中，Jeff Dean重點介紹了機器學習有望產生此等影響的五個方面。對於每個方面，他將討論谷歌相關的研究（主要是從2021年開始），以及在未來幾年可能出現的新方向和新進展。

這些方面分別涉及了算法、效率、個性化、全球化、責任：

算法上，基於Transformer的大規模預訓練模型如今無論是在單模態數據的多任務通用性，以及多模態聯合學習的能力上，都證明了自身的潛力；

效率上，從算力到模型訓練、部署，機器學習流水線的效率正不斷提高；在模型運行方面，編譯器的改進和加速器軟件的優化也提供了很大的助力；而架構方面的改進，自動化機器學習的持續發展、以及對模型稀疏性的利用，都讓算法研究發展迅速；

個性化上，機器學習不僅應用變得更加廣泛，而且越來越人性化，在功能上越來越自然，同時也更加注重隱私保護；

全球化上，機器學習的影響範圍越來越廣闊，涉及到愈發多樣的全球性問題，比如科學研究、醫療、芯片設計、碳排放緩解、自然災害預防等等；

最後是責任，儘管飽受爭議，但Jeff Dean表示，谷歌對於AI公平性非常重視，並從數據、算法、傳播分析、模型可解釋性、文化差異性研究以及大模型隱私保護上做了大量工作。

可以說，機器學習正在並且也將變得無處不在。

以下是關於五大趨勢總結的編譯介紹：

趨勢1：功能更強大、更通用的機器學習模型‍

如今，研究者正在訓練比以往任何時候都更大型、功能更強大的機器學習模型。

例如，僅在最近幾年，語言領域的模型規模已經從在數百億個數據標記上訓練的數十億個參數（例如，11B 參數的T5模型），發展到在數萬億個數據標記上訓練的數百億參數（例如，密集模型如 OpenAI 的 175B 參數 GPT-3 模型和 DeepMind 的 280B 參數 Gopher 模型，以及稀疏模型如 Google 的 600B 參數 GShard 模型和 1.2T 參數 GLaM 模型）。

數據集和模型規模的增強，使得各種語言任務的準確性顯著提高，正如標註自然語言處理（NLP）基準任務的全面提升所表明的那樣（例如對語言模型和機器翻譯模型的神經標度定律的研究所預測的）。

上述大部分高級模型都專注於書面語言的單一但不可或缺的模態數據，並在語言理解基準和開放式對話能力方面展現出最先進的成果，甚至在一個領域中的多個任務中也具有如此表現。

此外，它們還表現出令人興奮的能力，可以在訓練數據相對較少的情況下推廣到新的語言任務。某些情況下，新任務的訓練示例很少甚至沒有。例如，NLP中的改進長問答、零標籤學習任務。谷歌還提出了LaMDA模型，該模型展示了一種複雜的能力，可以進行開放式對話，在多輪對話中保持重要的上下文聯繫。

圖註：「與 LaMDA 的對話，通過預設真實提示模仿威德爾海豹，「嗨，我是威德爾海豹。你有什麼問題要問我嗎？」該模型在很大程度上保持了對話的角色特徵。

Transformer 模型也對圖像、視頻和語音模型產生了重大影響，正如視覺 Transformer 模型的標度定律所預測的那樣，所有這些任務也都從規模擴展中受益匪淺。

用於圖像識別和視頻分類的Transformer在許多基準上都取得了最先進的成果，谷歌還證明，與單獨使用視頻數據相比，在圖像數據和視頻數據上的聯合訓練模型可以提高視頻任務的性能。

他們為圖像和視頻Transformer開發了稀疏的軸向注意力機制，可以更有效地使用計算，為視覺Transformer模型找到更好的標記圖像方法，並通過檢查視覺Transformer方法與卷積神經網絡的操作方式相比，提高了對視覺Transformer方法的理解。將Transformer模型與卷積運算相結合，已在視覺和語音識別任務中顯示出顯著的優越性。

生成模型的輸出質量也在大幅提高，這在圖像的生成模型中表現得最為明顯。

例如，最近的模型已經證明，僅給定一個類別（例如，輸入「愛爾蘭塞特」或「有軌電車」）就可以創建逼真的圖像，也可以通過修復低分辨率圖像，以創建一個看起來自然的高分辨率匹配圖像（例如，輸入「計算機，增強！」），甚至可以創建任意大小的自然場景。

另一個例子是，可以將圖像轉換為一系列離散標記，然後可以使用自回歸生成模型以高保真度合成這些標記。

圖註：級聯擴散模型的示例，該模型從給定類別生成新圖像，然後將其用作種子來創建高分辨率示例：第一個模型生成低分辨率圖像，其餘模型對最終高分辨率圖像執行上採樣。

SR3 超分辨率擴散模型將低分辨率圖像作為輸入，並從純噪聲構建相應的高分辨率圖像。

視頻鏈接：https://iterative-refinement.github.io/assets/cascade_movie2_mp4.mp4

這些強大的功能背後，亦伴隨着巨大的責任，因此谷歌表示會根據其 AI 原則仔細審查此類模型的潛在應用。

除了先進的單模態模型外，谷歌也開始注意大規模多模態模型的潛力。這些是迄今為止最先進的模型，因為它們可以接受多種輸入模態（例如，語言、圖像、語音、視頻），並可以生成多種輸出模態，例如，基於描述性的句子或段落生成圖像，或用人類語言描述圖像的視覺內容。

這是一個令人興奮的方向，因為和現實世界一樣，在多模態數據中有些東西更容易學習（例如，閱讀並觀看演示比僅僅閱讀更有用）。因此，將圖像和文本配對可以幫助完成多語言檢索任務。並且，更好地理解如何將文本和圖像輸入配對，可以為圖像描述任務帶來更好的結果。

同樣，對視覺和文本數據的聯合訓練也有助於提高視覺分類任務的準確性和魯棒性，而對圖像、視頻和音頻任務的聯合訓練可以提高所有模態的泛化性能。

此外還有一些跡象表明，自然語言可以用作圖像處理的輸入，告訴機器人如何與世界交互並控制其他軟件系統，這預示着用戶界面的開發方式可能會發生變化。這些模型處理的模態將包括語音、聲音、圖像、視頻和語言，甚至可能擴展到結構化數據、知識圖譜和時間序列數據。

圖註：基於視覺的機器人操作系統示例，該系統能夠泛化到新任務。左圖：機器人正在執行一項基於「將葡萄放入陶瓷碗中」指令的任務，而模型並未接受該特定任務的訓練。右圖：類似左圖，但任務描述為「將瓶子放入托盤」。

這些模型通常使用自監督學習方法進行訓練，其中模型從未經標記的「原始」數據的觀察中學習，例如 GPT-3 和 GLaM 中使用的語言模型、自監督語音模型 BigSSL 、視覺對比學習模型 SimCLR 和多模態對比模型 VATT。自監督學習讓大型語音識別模型得以達到之前的語音搜索自動語音識別 (ASR) 基準的準確度，同時僅使用 3% 的帶注釋訓練數據。

這些趨勢令人興奮，因為它們可以大大減少為特定任務啟用機器學習所需的工作量，並且由於使得在更具代表性的數據上訓練模型變得更容易，這些數據更好地反映了不同的亞群、地區、語言，或其他重要的表示維度。

所有這些趨勢都指向訓練功能強大的通用模型的方向，這些模型可以處理多種數據模式，並解決成千上萬個任務。通過構建稀疏性模型，使得模型中唯一被給定任務激活的部分，僅有那些為其優化過的部分，從而這些多模態模型可以變得高效。

Jeff Dean表示，在接下來的幾年裡，谷歌將基於Pathways架構追求這一願景。

Pathways：谷歌正在努力的統一模型，可以泛化至數百萬個任務。

趨勢2：機器學習效率的持續提升

由於計算機硬件設計以及機器學習算法和元學習研究的進步，機器學習的效率得到持續提升，推動着機器學習模型的功能變得更加強大。

ML 流水線涉及許多方面，從訓練和執行模型的硬件，到 ML 架構的各個組件，都可以進行效率優化，同時保持或提高整體性能。

與前幾年相比，這些線程中的每一個都可以以顯著的乘法因子提高效率，並且綜合起來可以將計算成本（包括二氧化碳當量排放量）降低幾個數量級。

更高的效率促成了許多關鍵的進步，這些進步將繼續顯著提高機器學習的效率，使更大、更高質量的機器學習模型能夠以高效的方式開發，並進一步使訪問公平化。

ML 加速器性能的持續改進

每一代 ML 加速器都在前幾代的基礎上進行了改進，使每個芯片的性能更快，並且通常可以擴大整個系統的規模。

去年，谷歌發布了其TPUv4 系統，這是谷歌的第四代張量處理單元，它在 MLPerf 基準測試中比 TPUv3 提升了 2.7 倍。TPUv4 芯片的峰值性能是 TPUv3 芯片的約 2 倍，每個 TPUv4 pod 的規模為 4096 個芯片（是 TPUv3 pod 的 4 倍），每個 pod 的性能約為 1.1 exaflops（而每個 TPUv3 pod約為 100 petaflops）。擁有大量芯片並通過高速網絡連接在一起的 Pod 可以提高大型模型的效率。

此外，移動設備上的機器學習能力也在顯着提高。Pixel 6 手機採用全新的 Google Tensor 處理器，該處理器集成了強大的 ML 加速器，以更好地支持重要的設備功能。

左：TPUv4 主板；中：TPUv4 pod的一部分；右圖：在 Pixel 6 手機中的 Google Tensor 芯片。

Jeff Dean表示，谷歌使用 ML 來加速各種計算機芯片的設計也帶來了好處，特別是在生產更好的 ML 加速器方面。

ML 編譯和 ML 工作負載優化的持續改進

即使硬件不變，編譯器的改進和機器學習加速器系統軟件的其他優化也可以顯著提高效率。

例如，「A Flexible Approach to Autotuning Multi-pass Machine Learning Compilers」展示了如何使用機器學習來執行編譯設置的自動調整，用於同一底層硬件上的一套 ML 程序，以獲得 5-15% 的全面性能提升（有時甚至高達2.4 倍改進）。

此外，GSPMD 描述了一種基於 XLA 編譯器的自動並行化系統，該系統能夠將大多數深度學習網絡架構擴展到加速器的內存容量之外，並已應用於許多大型模型，例如 GShard-M4、LaMDA、BigSSL、ViT、MetNet -2 和 GLaM，在多個領域產生了最先進的成果。

圖註：通過在 150 個 ML 模型上使用基於 ML 的編譯器自動調整實現端到端模型加速。圖中包括實現 5% 或更多改進的模型。條形顏色代表優化不同模型組件的相對改進。

人類創造的更高效模型架構

模型架構的持續改進大大減少了為許多問題實現給定精度水平所需的計算量。

例如，谷歌在 2017 年開發的 Transformer 架構能夠提高在多個 NLP 基準上的當前最佳水平，同時使用比其他各種常用方法少 10 到 100 倍的計算來實現這些結果，例如 LSTM 和其他循環架構。

同樣，儘管使用的計算量比卷積神經網絡少 4 到 10 倍，但視覺 Transformer 能夠在許多不同的圖像分類任務上顯示出改善的最先進結果。

機器驅動的更高效模型架構的發現

神經架構搜索（NAS）可以自動發現對給定問題域更有效的新 ML 架構。NAS 的一個主要優點是它可以大大減少算法開發所需的工作量，因為 NAS 只需要對每個搜索空間和問題域組合進行單次檢驗。

此外，雖然執行 NAS 的初始工作在計算上可能很昂貴，但由此產生的模型可以大大減少下游研究和生產設置中的計算，從而大大降低總體資源需求。

例如，發現 Evolved Transformer 的單次搜索僅產生了 3.2 噸二氧化碳當量（遠低於其他地方報告的 284 噸二氧化碳當量），但產生了一個比普通的 Transformer 模型效率高 15-20%的模型。

最近，谷歌利用 NAS 發現了一種更高效的架構，稱為 Primer（也已開源），與普通的 Transformer 模型相比，它可以將訓練成本降低 4 倍。通過這種方式，NAS 搜索的發現成本通常可以從使用發現的更有效的模型架構中收回，即使它們僅應用於少數下游任務（NAS 結果可被重複使用數千次）。

圖註：NAS 發現的 Primer 架構的效率是普通 Transformer 模型的 4 倍。這張圖片紅色部分顯示了 Primer 獲得大部分改進的兩個主要修改：添加到注意力多頭投影的深度卷積和平方 ReLU 激活（藍色表示原始 Transformer 的部分）。

NAS還被用於在視覺領域發現更有效的模型。EfficientNetV2 模型架構是神經架構搜索的結果，它聯合優化了模型精度、模型大小和訓練速度。在 ImageNet 基準測試中，EfficientNetV2 將訓練速度提高了 5 到 11 倍，同時與以前最先進的模型相比，模型參數大大減少。

CoAtNet 模型架構是通過架構搜索發現的，結合了視覺 Transformer 和卷積網絡來創建一個混合模型架構，其訓練速度比視覺 Transformer 快 4 倍，並實現了新的 ImageNet 最先進結果。

圖註：EfficientNetV2 的訓練效率比之前的 ImageNet 分類模型要好得多。

廣泛使用搜索來幫助改進 ML 模型架構和算法，包括使用強化學習和進化技術，激發了其他研究人員將這種方法應用於不同領域。

除了模型架構之外，自動搜索還可用於尋找新的、更有效的強化學習算法，建立在早期的 AutoML-Zero 工作的基礎上。

稀疏性的利用

稀疏性模型具有非常大的容量，但對於給定的數據（示例或 token ），只有模型的某些部分被激活，這是另一個可以大大提高效率的重要算法進步。

2017 年，谷歌引入了稀疏門控混合專家層，該層在各種翻譯基準上展示了更好的結果，同時使用的計算量比以前最先進的密集 LSTM 模型少 10 倍。

最近，Switch Transformers 將混合專家風格的架構與 Transformer 模型架構相結合，與密集的 T5-Base Transformer 模型相比，訓練時間和效率提高了 7 倍。

GLaM 模型表明，Transformer 和混合專家風格的層可以結合起來生成一個模型，該模型在 29 個基準測試中平均超過 GPT-3 模型的準確性，而訓練的能耗減少了 3 倍，推理的計算量減少了 2 倍。稀疏性的概念也可以用於降低Transformer 架構中注意力機制的成本。

圖註：BigBird 稀疏注意力模型由關注輸入序列所有部分的全局標記、局部標記和一組隨機標記組成。從理論上講，這可以解釋為在 Watts-Strogatz 圖上添加一些全局標記。

在模型中使用稀疏性，顯然是一種在計算效率方面具有非常高潛力的方法。Jeff Dean 表示，谷歌只是在這個方向上觸及了皮毛。

與使用 P100 GPU 訓練的基線 Transformer 模型相比，這些提高效率的方法中的每一種都可以組合在一起，可將高效數據中心訓練的等效精度語言模型的能源效率提高約 100 倍，產生的二氧化碳排放量減少約 650 倍。

Jeff Dean表示，其團隊很快就會發表更為詳細的博客文章分析 NLP 模型的碳排放趨勢。

趨勢3：機器學習正推動個人和社區的發展

ML 和諸如手機上的Tensor 處理器等硅基硬件的創新，使得移動設備可以更持續有效地感知周圍環境，而這將為用戶帶來一系列新的體驗。

他認為這種進步不僅提高了其可及性、易用性，而且提升了計算的能力，這對改善移動攝影、實時翻譯等功能也至關重要。值得注意的是，這種最新的技術在為用戶提供更加個性化體驗的同時，還加強了隱私保障措施。

目前，使用手機攝像來記錄日常生活或進行藝術表達的熱度空前。Jeff Dean 認為，ML 在計算攝影中的巧妙運用，可以不斷促進手機相機功能的提升，使其操作起來更加容易，也可以提高拍攝性能，產生更高質量的圖像。

比如，經過改進的HDR+，在非常低的光線下就可以很好地處理人像，使相機更具包容性，並且適用於所有膚色，可以拍攝出能夠達到攝影師預想視覺效果並且更符合主題的照片。

不僅如此，基於 ML 的 Google Photos 工具，像電影照片、降噪、模糊以及魔術橡皮擦等，可以進一步完善照片。

圖註：HDR+ 從一連串全分辨率原始圖像開始，每個圖像都有相同的曝光不足（左）。融合後的圖像減少了噪點並增加了動態範圍，從而獲得了更高質量的最終圖像（右）。

除了使用手機進行創作外，Jeff Dean 還列舉了人們依靠手機進行跨語言和跨模式的實時溝通的例子，比如在消息應用程序中使用實時翻譯，在通話交流中使用實時字幕等。

得益於自監督學習和噪聲學生訓練（Noisy Student Training）等技術的進步，語音識別的準確率在重音、嘈雜環境或語音重疊和多語言環境下，都有明顯提高。基於從文本到語音合成方面的進展，越來越多的平台推出了朗讀技術，允許人們用聽的方式獲取網頁或文章內容，使信息更容易跨越模態和語言的障礙。

穩定、實時生成的翻譯以及高質量、穩定、有保障的直接語音翻譯，為使用不同語言交流的人們提供了更好的用戶體驗，機器翻譯中的實時語音翻譯功能也已得到極大改善。

將ML與傳統的編解碼方法相結合的新工作，可以促使更高保真度的語音、音樂或其它聲音以更低的比特率進行交流。另一方面，Jeff Dean 還表示像自動呼叫或者與 ML 智能體進行的一些日常互動性的功能變得越來越自然。

即使是用戶可能會經常進行的，像智能文本選擇等這樣的簡單任務也得到了改進，可以實現自動選擇電話號碼或地址等，能夠方便複製粘貼，或者在手機上輸入時的語法糾正。

此外，「屏幕注意（Screen Attention ）」可防止手機屏幕在被注視時變暗，並且注視識別（Gaze Recognition）的改進為可訪問性和改善健康狀況開闢了新的用例。ML 也正在啟用新的方法來保障人們和社區的安全。例如，"可疑信息警報（ Suspicious Message Alerts ）" 對可能存在的網絡釣魚攻擊發出警告、"安全路線（Safer Routing ） " 可以檢測到急剎車事件以及提供建議替代路線。

圖註：最近的工作證明了注視識別可作為精神疲勞的重要生物標誌物。

然而，這些新功能的開發離不開數據支撐，Jeff Dean 表示鑑於其中潛在的敏感性問題，將其設置為在默認狀態下私有是非常有必要的。

其中的很多功能是在安卓私有的計算核心內運行，提供了一個與操作系統其它部分隔離的開源安全環境。安卓系統可以確保在私有計算核心中處理的數據不會在用戶不知情的情況下分享給任何應用程序。安卓系統還防止私有計算核心內的任何功能直接訪問網絡。

相反，這些功能通過一小套開源 API 與私有計算服務進行通信，私有計算服務剝離了識別信息，並利用了包括聯邦學習、聯邦分析和私人信息檢索在內的隱私技術，確保在學習的同時保護隱私。

圖註：聯邦重建是一種新穎的部分局部聯邦學習技術，其中模型被劃分為全局和局部參數。對於每一輪聯邦重建訓練：(1) 服務器將當前全局參數 g 發送給每個用戶 i；(2) 每個用戶 i 凍結 g 並重建他們的局部參數 l_i；(3) 每個用戶i凍結 l_i 並更新 g 產生 g_i ；(4) 對用戶的 g_i 取平均值，生成下一輪的全局參數。

在 Jeff Dean 看來，這些技術對於發展下一代計算和交互模式至關重要。個人或公共設備可以在不侵犯隱私的情況下，從集體模型中學習，並推動模型訓練的進步。

用聯合無監督的方法來學習上述的通用模型，並針對特定的任務或環境進行微調，可以產生越來越多的智能系統，這些系統更像是一個社會實體而不是機器，與之互動要更為直觀。只有從邊緣到數據中心，深入改變技術堆棧（technology stacks)，使其適當支持神經計算，才有可能廣泛而公平地使用這些智能接口。

趨勢4：機器學習對科學、健康和可持續發展的影響越來越大

近年來，谷歌看到 ML 在基礎科學中的影響越來越大，從物理學到生物學，在許多相關領域（例如可再生能源和醫學）中都具有令人興奮的實際應用。

計算機視覺模型已被部署用來解決個人和全球範圍內的問題，它們可以協助醫生進行日常工作，擴大人們對神經生理學的理解，還可以提供更好的天氣預報結果和簡化救災工作。

通過發現減少碳排放和提高替代能源輸出的方法，其他類型的 ML 模型被證明在應對氣候變化方面至關重要。

隨着 ML 變得更加健壯、完善和獲得更廣泛的訪問，它在廣泛的現實世界領域中具有高影響力的應用的潛力繼續擴大，有助於解決研究人員面臨的一些最具挑戰性的問題。

計算機視覺的大規模應用以獲得新的洞察力

過去十年，計算機視覺的進步使計算機能夠用於不同科學領域的各種任務。比如，在神經科學中，自動重建技術可以從腦組織薄片的高分辨率電子顯微鏡圖像中恢復腦組織的神經結締結構。

前幾年，谷歌為果蠅、小鼠和鳴禽的大腦創建了此類資源。但在去年，他們與哈佛大學的 Lichtman 實驗室合作，分析了以相同粒度成像和重建的多種物種的大腦組織樣本，並首次對人類皮層中的突觸連接進行了大規模研究，該研究跨越了皮層所有層的多種細胞類型。

這項工作的目標是獲得一種新的資源來幫助神經科學家研究人類大腦的複雜性。例如，下圖顯示了成人大腦中約 860 億個神經元中的 6 個神經元。

圖註：來自人類皮層重建的單個人類枝形吊燈神經元，以及與該細胞連接的一些錐體神經元。

此外，計算機視覺技術還提供了強大的工具來應對更大甚至全球範圍內的挑戰。

例如，基於深度學習的天氣預報方法，該方法使用衛星和雷達圖像作為輸入，結合其他大氣數據，在長達 12 小時的預測時間內，產生比傳統的基於物理的模型更準確的天氣和降水預報。與傳統方法相比，它們還可以更快地生成新的預測，這在極端天氣中非常重要。

圖註：2020 年 3 月 30 日，不同模型預測科羅拉多州丹佛市 0.2 毫米/小時降水量的比較。左圖：真實數據，來源（MRMS）。中間：MetNet-2 預測的概率圖。右圖：基於物理的 HREF 模型預測的概率圖。MetNet-2 能夠在預測中比 HREF 更早地預測風暴的開始以及風暴的起始位置，而 HREF 錯過了起始位置，但很好地捕捉到了生長階段。

準確記錄建築足跡對於人口估計和城市規劃等一系列應用至關重要。在世界許多地方，包括非洲大部分地區，這些信息以前都是不可用的。

但新工作表明，將計算機視覺技術應用於衛星圖像可以幫助識別大陸尺度的建築邊界。這種方法的相關結果已在 Open Buildings 數據集中發布，這是一個新的開放訪問數據資源，其中包含 5.16 億座建築物的位置和足跡，覆蓋非洲大陸的大部分地區。

Jeff Dean 團隊還在與世界糧食計劃署的合作中使用這個數據集，通過應用機器學習在自然災害後提供快速的損害評估。

在衛星圖像中分割建築物的示例。左：源圖像；中：語義分割，每個像素都分配了一個置信度分數，表明它是建築物還是非建築物；右圖：實例分割，通過對連接組件進行閾值化和分組獲得。

這些案例反映出的一個共同主題是，ML 模型能夠基於對可用視覺數據的分析，高效、準確地執行專門的任務，支持高度相關的下游任務。

自動化設計空間探索

另一種在多個領域取得成果的方法是，允許 ML 算法以自動化方式探索和評估問題的設計空間以尋找可能的解決方案。

比如在一個應用程序中，基於 Transformer 的變分自動編碼器學習創建美觀且有用的文檔布局，並且可以擴展相同的方法來探索可能的家具布局。

另一種 ML 驅動的方法自動探索遊戲規則的巨大設計空間，以提高遊戲的可玩性和其他屬性，使人類遊戲設計師能夠更快地創建令人愉快的遊戲。

圖註：變分Transformer網絡 (VTN) 模型的可視化，它能夠提取布局元素（段落、表格、圖像等）之間的有意義的關係，以生成逼真的合成文檔（例如，具有更好的對齊和邊距）。

其他 ML 算法已被用於評估 ML 加速器芯片本身的計算機架構決策的設計空間。

谷歌還表明，ML 可用於為 ASIC 設計快速創建芯片布局，這些布局優於人類專家生成的布局，並且可以在幾小時而不是幾周內生成。這降低了芯片的固定工程成本，並降低了為不同應用快速創建專用硬件的障礙。他們在即將推出的 TPU-v5 芯片的設計中成功地使用了這種方法。

這種探索性 ML 方法也已應用於材料發現。在 Google Research 和加州理工學院的合作中，幾個 ML 模型與改進的噴墨打印機和定製的顯微鏡相結合，能夠快速搜索數十萬種可能的材料，發現了 51 種以前未表徵的三金屬氧化物材料，在電池技術和水電解等領域具有應用前景。

這些自動化的設計空間探索方法可以幫助加速許多科學領域，特別是當生成實驗和評估結果的整個實驗循環都可以以自動化或大部分自動化的方式完成時。Jeff Dean 表示，希望看到這種方法在未來幾年在更多領域中發揮良好的效果。

在健康領域的應用

除了推進基礎科學，機器學習還可以更廣泛地推動醫學和人類健康的進步。

利用計算機科學在健康方面並不是什麼新鮮事——事實上，谷歌早期就開發軟件來幫助分析流行病學數據。但是機器學習打開了新的大門，帶來了新的機會，也帶來了新的挑戰。

以基因組學領域為例。自基因組學問世以來，計算一直很重要，但 ML 增加了新功能並推翻了舊範式。當谷歌研究人員開始在這一領域工作時，許多專家認為使用深度學習幫助從測序儀輸出推斷遺傳變異的想法是牽強附會的。

今天，這種機器學習方法被認為是最先進的。但未來對於 ML 來說將扮演更重要的角色——基因組學公司正在開發更準確、更快的新測序儀器，但也帶來了新的推理挑戰。

谷歌發布的開源軟件 DeepConsensus 以及與 UCSC 合作的 PEPPER-DeepVariant 支持這些具有尖端信息學的新儀器。

圖註：DeepConsensus 的 Transformer 架構示意圖，可糾正測序錯誤以提高產量和準確性。

除了處理測序儀數據之外，還有其他機會使用 ML 來加速研究人員將基因組信息用於個性化健康。廣泛表型和測序個體的大型生物庫可以徹底改變人們理解和管理疾病遺傳易感性的方式。

Jeff Dean 等人基於 ML 的表型分析方法提高了將大型成像和文本數據集轉換為可用於遺傳關聯研究的表型的可擴展性，他們的 DeepNull 方法更好地利用大型表型數據進行遺傳發現，並且已經開源。

圖註：生成解剖和疾病特徵的大規模量化以與生物庫中的基因組數據相結合的過程。

正如 ML 幫助研究人員看到基因組數據的隱藏特徵一樣，它也可以幫助發現新信息並從其他健康數據類型中收集新見解。疾病診斷通常是關於識別模式、量化相關性或識別更大類別的新實例——這些都是 ML 擅長的任務。

谷歌研究人員已經使用 ML 解決了廣泛此類問題，但也許這些問題都沒有比 ML 在醫學成像中的應用更進一步。

事實上，谷歌 2016 年的論文描述了深度學習在糖尿病性視網膜病變篩查中的應用，被美國醫學會雜誌 (JAMA) 的編輯選為十年來最具影響力的 10 篇論文之一——不僅僅是機器學習和健康方面最有影響力的論文，甚至是整個十年中最具影響力的 JAMA 論文。

Jeff Dean 表示，其團隊成員希望看到這種相同模式的輔助 ML 系統被部署用於改善乳腺癌篩查、檢測肺癌、加速癌症放射治療、標記異常 X 射線和分期前列腺癌活檢。

ML 輔助結腸鏡檢查程序是更高階的有趣例子。結腸鏡檢查不僅用於診斷結腸癌——在手術過程中切除息肉是阻止疾病進展和預防嚴重疾病的重要部分。在這個領域，研究人員已經證明 ML 可以幫助檢測難以捉摸的息肉，並且可以增加質量保證的新維度，例如通過應用同步定位和映射技術進行覆蓋映射。

通過與耶路撒冷的 Shaare Zedek 醫療中心合作，谷歌展示了這些系統可以實時工作，在每次手術中平均檢測到一個原本會被漏掉的息肉，每次手術的誤報少於四個。

圖註：胸部 X 光片 (CXR) 的真假陽性樣本，以及 (A) 一般異常、(B) 結核病和 (C) COVID-19 的真假陰性結果。在每個 CXR 上，紅色輪廓表示模型重點識別異常的區域（即類激活圖），黃色輪廓表示放射科醫生識別的感興趣區域。

另一個醫療保健計劃 Care Studio 使用最先進的 ML 和先進的 NLP 技術來分析結構化數據和醫療記錄，在正確的時間向臨床醫生提供最相關的信息——最終幫助他們提供更主動和準確的護理。

儘管 ML 可能對擴大臨床環境的可及性和提高準確性很重要，但一個同樣重要的新趨勢正在出現：ML 應用於幫助人們提高日常健康和福祉。

我們的日常設備具有強大的傳感器，可以幫助使健康指標和信息民主化，以便人們可以就自己的健康做出更明智的決定。

智能手機攝像頭已經可以評估心率和呼吸頻率以幫助用戶，而無需額外硬件的發布，以及支持非接觸式睡眠感應，並讓用戶更好地了解他們的夜間健康狀況的設備。

一方面，個人可以在自己的 ASR 系統中顯著提高無序語音的語音識別質量，另一方面，還可以使用 ML 幫助重建有語音障礙的人的聲音。支持機器學習的智能手機甚至可以幫助人們更好地研究新出現的皮膚狀況或幫助視力有限的人慢跑。

圖註：用於非接觸式睡眠感應的自定義 ML 模型有效地處理連續的 3D 雷達張量流（總結一系列距離、頻率和時間的活動），以自動計算用戶清醒或睡着的可能性的概率。

機器學習在氣候危機上的應用

另一個最重要的領域是氣候變化，這對人類來說是一個極其緊迫的威脅。

因此，人們需要共同努力，扭轉有害排放物的增長曲線，以確保安全和繁榮的未來。關於不同選擇對氣候帶來的影響的信息可以幫助人類以多種不同方式應對這一挑戰。

為此，谷歌最近在 Google 地圖中推出了環保路線推薦應用，他們估計這將每年減少約 100 萬噸二氧化碳排放（相當於從道路上減少 200,000 多輛汽車）。

此外，讓地圖產品更智能地了解電動汽車有助於緩解里程焦慮，鼓勵人們改用無排放汽車。谷歌還與世界各地的多個城市合作，使用匯總的歷史交通數據來幫助改進交通信號燈時間設置，在以色列和巴西進行的一項早期試點研究表明，燃料消耗和延誤時間可以減少10-20%。

圖註：藉助環保路線應用，Google 地圖可以顯示快和省油的路線。

在更長的時間範圍內，聚變有望成為改變遊戲規則的可再生能源。在與 TAE Technologies 的長期合作中，谷歌使用 ML 通過建議設置 1000 多個相關控制參數來幫助維持其聚變反應堆中的穩定等離子體。

通過他們的合作，TAE 實現了諾曼反應堆的主要目標，這使研究人員離盈虧平衡聚變的目標更近了一步。該機器在 30 毫秒內保持 3000 萬開爾文的穩定等離子體，這是其系統可用功率的範圍。

谷歌也在關注自然災害預防。去年，他們推出了由衛星數據提供支持的野火邊界圖，以幫助人們直接通過設備輕鬆了解火災的大致規模和位置。

在此基礎上，研究人員現在將谷歌的所有野火信息整合在一起，並在全球範圍內推出谷歌地圖上的新圖層。他們一直在應用圖形優化算法來幫助優化火災疏散路線。

2021 年，谷歌首次在實際的洪水預警系統中部署了基於 LSTM 的預測模型和新的模型（ Manifold inundation model）。

圖註：Google 地圖中的野火層可在緊急情況下為人們提供重要的最新信息。

ML 模型訓練的碳排放是 ML 社區關注的問題，谷歌已經證明了關於模型架構、數據中心和 ML 加速器類型的選擇可以將訓練的碳足跡減少約 100-1000 倍。

趨勢5：對機器學習更深入的理解

隨着機器學習被更廣泛地接受和應用，繼續開發新技術可以推進機器學習更好地造福於社會。

基於在線產品中的用戶活動的推薦系統就是其中一個。通常推薦系統是由多個不同組件構成的，想要理解它們的公平屬性，需要了解各個組件以及它們組合時的運行方式。

谷歌最新的研究提高了單個組件和整體推薦系統的公平性，幫助用戶更好地理解這些「關聯性」。而且，在從匿名用戶活動中學習時，推薦系統以「中立」的方式學習至是十分必要的。從先前用戶的數據中直接學習到的「經驗」，可能帶有顯而易見的「偏見」。如果不糾正，那新用戶可能會頻繁收到不符合心意的產品推薦。

與推薦系統類似，上下文環境在機器翻譯中至關重要。大多數機器翻譯系統都是孤立地翻譯單個句子，沒參考額外的上下文內容，無意間添加了性別、年齡等「歧視」屬性。谷歌去年公布了一個專門針對翻譯中性別偏見的數據集，用來研究基於維基百科傳記的翻譯偏見。

部署機器學習模型中另一個常見問題是分布偏移（distributional shift）：如果訓練模型數據的統計分布與輸入模型數據的統計分布不同，可能造成模型產生的結果不可預測。

谷歌利用 Deep Bootstrap 框架對比有限訓練數據的現實世界與無限數據的「大同世界」。從而更好地理解模型的行為（真實中與理想中的世界），研究人員可以開發泛化性更強的模型，對固定訓練數據集減少「偏見」。

雖然機器學習算法和模型開發一直備受關注，但數據收集和數據集管理類的工作相對較少。毋庸置疑，它們是不可忽視的領域，因為訓練機器模型所依據的數據可能是下游應用程序中公平性問題的潛在來源。分析機器學習中此類數據級聯，將有助於識別項目周期中對結果產生重大影響的許多因素。

圖註：不同顏色的箭頭表示各種類型的數據級聯，每個級聯通常起源於上游，在ML開發過程中複合，並在下游呈現。

更好地理解數據是機器學習研究的一個核心環節。谷歌開發了一類方法能夠深入了解特定訓練示例對機器學習模型的影響，因為錯誤標記的數據或其他類似問題對整體模型都有巨大負面影響。谷歌還構建了Know Your Data 工具，用以幫助研究人員和從業者掌握數據集屬性，例如：如何使用 Know Your Data 工具來探索性別、年齡偏見等問題。

圖註：Know Your Data 的數據顯示了描述吸引力的詞與性別詞之間的關係

了解基準數據集使用的動態也十分必要，因為它們在機器學習領域的中發揮着核心作用。儘管對單個數據集的研究變得更為普及，但整個領域的數據集使用動態仍有神秘領域待探索。最近谷歌發表了第一個關於數據集創建、採用和重用動態的大規模實證分析。

創建更具包容性和更少偏見的公共數據集是可以改善機器學習領域的重要方法。2016 年，谷歌發布了 Open Images 數據集，該數據集包含約 900 萬張圖像，標註了涵蓋數千個對象類別的圖像標籤和 600 個類別的邊界框注釋。

去年，Jeff Dean團隊在 Open Images Extended 集合中引入了更具包容性的人物注釋 (MIAP) 數據集。它有更完整的人類邊界框注釋，像感知性別表示和感知年齡範圍等都標有更為公平的屬性。同時，研究人員還構建了數據集搜索來幫助用戶發現新的數據集。

處理各種形式的在線濫用行為，例如有害言論、仇恨言論和錯誤信息等，能夠有效大規模檢測這類濫用形式，對確保平台安全、避免通過以無人監督的方式從在線話語中學習語言的此類負面特徵的風險至關重要。

谷歌通過 Perspective API 工具進行了工作，但大規模檢測有害性所涉及的細微差別仍然是高難度挑戰。Jeff Dean等引入了全面分類法來推理在線仇恨和騷擾的言論變化局面。

他們同樣研究了如何檢測在網絡中常被忽略的隱蔽有害形式，例如微歧視（microaggression）。研究了如何用傳統方法處理數據注釋中的歧視，這些主觀概念會邊緣化少數人的觀點，並提出了一種新的基於多任務框架的分類建模方法。

其他的潛在問題是，機器學習語言理解和生成模型有時也會產生缺少證據支持的結果。為了在問答、總結和對話中解決這個問題，谷歌開發了一個新框架衡量結果是否可以歸因於特定來源，並隨後發布了注釋指南，證明能夠可靠地用於評估候選模型。

模型交互式分析和調試仍然是機器學習的關鍵。谷歌更新了語言可解釋性工具，用新功能和技術推進這項工作，包括對圖像和表格數據的支持，以及內置支持通過概念激活向量測試技術進行公平性分析等。

機器學習系統的可解釋性和對模型決策過程的事後可重建性也是谷歌負責任的AI 願景的關鍵部分。通過與 DeepMind 合作，研究人員在理解人類國際象棋概念在自對弈訓練的 AlphaZero 國際象棋系統中的獲取上取得了進展。

圖註：探索 AlphaZero 學習到的國際象棋概念。

谷歌也在將人工智能的視野拓寬到西方背景之外。他們最近的研究檢驗了基於西方機構和基礎設施的傳統算法公平框架的假設為何在非西方背景下不適應。

他們正在多個國家積極開展調查研究，以了解人們對人工智能的看法和偏好。西方對算法公平性研究的框架往往只關注少數幾個屬性，因此關於非西方背景的偏見在很大程度上被忽視，在經驗上研究不足。

為了解決這一問題，谷歌與密歇根大學合作，開發了一種弱監督方法，在 NLP 模型中穩健地檢測更廣泛的地理文化背景中的詞彙偏差，這些模型反映了人類在這些區域中對攻擊性和非攻擊性語言的判斷。

此外，他們還探索了 ML在南半球主導的環境中的應用，包括為以農戶為中心的機器學習研究提出建議。

基於社區的研究方法，也為谷歌設計數字福祉和解決機器學習系統中的種族平等問題提供了依據，包括提高對非裔美國人使用 ASR 系統體驗的理解。

隨着ML模型在許多領域的應用，私有信息的保護一直是研究的重點。沿着這些思路，谷歌最新研究解決了大型模型中的隱私問題，既強調了從大型模型中提取訓練數據，也指出了在大型模型中實現隱私的方法，例如差分私有BERT。

除了上面提到的聯邦學習和分析方面的工作之外，使用實用的機器學習技術從而增強研究人員的工具箱，確保差分隱私，比如私有聚類、私有個性化、私有矩陣完成、私有加權採樣、私有分位數、半空間的私有魯棒學習，以及普遍樣本高效的私有 PAC 學習，還有擴展可針對不同應用程序和模型定製的隱私概念集，像標籤隱私和用戶與項目級別的隱私。

圖註：差分私有聚類算法的可視化圖示。

結語

研究通常是對現實世界產生影響的長期歷程。幾年前發生的早期研究工作現在對谷歌乃至全世界都產生了巨大的影響。

對ML 硬件加速器以及軟件框架的投資已取得成果。ML 模型在許多不同產品和功能中越來越普遍，因為它們的強大功能和易於表達的特點簡化了 ML 模型在性能關鍵環境中的實驗和生產。

對創建 Seq2Seq、Inception、EfficientNet 和 Transformer 的模型架構的研究或批歸一化和蒸餾等算法研究正在推動語言理解、視覺、語音等領域的進步。

更好的語言和視覺理解以及語音識別等基本功能或許將具有變革性，因此，這些類型的模型被廣泛部署用於解決許多產品中的各種問題，包括搜索、助理、廣告、雲、郵箱、地圖、視頻、和翻譯等等。

這些是機器學習和計算機科學真正激動人心的時刻。計算機通過語言、視覺和聲音理解和與周圍世界互動的能力不斷提高，這為計算機如何幫助人們完成任意的任務開闢了全新的領域。這篇文章概述的五個趨勢中談到的示例將是這個長期歷程中的路標！

原文鏈接：https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html

鑽石舞台

鑽石鑽石亮晶晶

AI科技評論 - 2021谷歌年度AI技術總結 | Jeff Dean執筆萬字展望人工智能的5大未來趨勢！

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣