機器之心 - 7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度學習的黃金十年；擴散模型生成視頻－鑽石舞台

機器之心& ArXiv Weekly Radiostation

參與：杜偉、楚航、羅若天

本周論文包括谷歌大牛 Jeff Dean 發文探索深度學習發展的黃金十年；Google Research 的研究者們提出了一種稱為「自洽性（self-consistency）」的簡單策略，顯著提高了大型語言模型的推理準確率。

A Golden Decade of Deep Learning: Computing Systems & Applications

Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing

Self-Consistency Improves Chain of Thought Reasoning in Language Models

Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction

Video Diffusion Models

Overcoming a Theoretical Limitation of Self-Attention

RETHINKING NETWORK DESIGN AND LOCAL GEOMETRY IN POINT CLOUD: A SIMPLE RESIDUAL MLP FRAMEWORK

ArXiv Weekly Radiostation：NLP、CV、ML 更多精選論文（附音頻）

論文 1：A Golden Decade of Deep Learning: Computing Systems & Applications

作者：Jeffrey Dean

論文鏈接：https://www.amacad.org/sites/default/files/publication/downloads/Daedalus_Sp22_04_Dean.pdf

摘要：自從計算機誕生之初，人類就夢想着能夠創造出會思考的機器。1956 年在達特茅斯學院組織的一個研討會上，約翰 · 麥卡錫提出人工智能這個概念，一群數學家和科學家聚集在一起尋找如何讓機器使用語言、形成抽象理解和概念、以解決現存的各種問題，當時研討會參與者樂觀地認為，在幾個月的時間裡這些問題能取得真正的進展。

事實證明，預留幾個月的時間安排過於樂觀。在接下來的 50 年裡，創建人工智能系統的各種方法開始流行，但後來又遭遇過時，包括基於邏輯的系統、基於規則的專家系統和神經網絡。

直到 2011 年左右，人工智能才開始進入發展關鍵階段，取得了巨大的進步，這得益於深度學習中神經網絡的復興，這些技術的進步有助於提高計算機看、聽和理解周圍世界的能力，使得人工智能在科學以及人類探索的其他領域取得巨大進步。這其中有哪些原因呢？

近日，谷歌大牛 Jeff Dean 發表了一篇文章《 A Golden Decade of Deep Learning: Computing Systems & Applications 》，文章探索了深度學習在這黃金十年裡，計算系統以及應用進步的原因都有哪些？本文重點關注三個方面：促成這一進步的計算硬件和軟件系統；過去十年在機器學習領域一些令人興奮的應用示例；如何創建更強大的機器學習系統，以真正實現創建智能機器的目標。

Jeff Dean 的這篇文章發表在了美國文理學會會刊 Dædalus 的 AI 與社會（AI & Society）特刊上。

推薦：谷歌大牛 Jeff Dean 單一作者撰文：深度學習研究的黃金十年。

論文 2：Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing

作者：Zhuo Wang 、 Zezheng Wang 、 Zitong Yu 等

論文鏈接：https://arxiv.org/abs/2203.05340

摘要：在這篇文章中，該研究提出了一個新的網絡結構 SSAN，用以實現具有域泛化性的活體檢測算法。與過去的方法直接在圖像完全表徵上提升域泛化性的思路不同，該研究基於內容特徵和風格特徵在統計特性上的差異，對他們實施不同的處理。具體而言，對於內容特徵，本文採用了對抗學習的方式，使得網絡無法對他們進行數據域層面的區分。對於風格特徵，本文使用了對比學習的策略，來強化與活體相關的風格信息，同時抑制域信息相關的部分。然後，本文對配對的內容和風格特徵進行組合，構成完全特徵表示，並用以最後的分類。

此外，為了彌合學術界與工業界之間的差異，本文通過合併現有的公開數據集，建立了大規模活體檢測測試協議。在現有的協議和本文所提出的協議上，所提出的 SSAN 算法均取得了最佳的表現。

本文方法的整體框架如圖二所示。首先，本文使用一個雙流網絡來對圖像的內容信息和風格信息進行提取。第二步，一種風格重組的方法被提出，以使不同的內容特徵和風格特徵進行組合。然後，為了抑制域相關的風格信息，同時增強活體相關的風格信息，本文在重組後的特徵空間上使用了對比學習的策略。最後，總的損失函數用來訓練所提出的網絡。

整體網絡框架

推薦：快手、北郵提出基於特徵組合的域泛化性活體檢測算法，多項 SOTA。

論文 3：Self-Consistency Improves Chain of Thought Reasoning in Language Models

作者：Xuezhi Wang 、 Jason Wei 等

論文鏈接：https://arxiv.org/pdf/2203.11171.pdf

摘要：儘管語言模型在一系列 NLP 任務中取得了顯著的成功，但它們的推理能力往往不足，僅靠擴大模型規模不能解決這個問題。基於此，Wei et al. (2022) 提出了思維提示鏈（chain of thought prompting），提示語言模型生成一系列短句，這些短句模仿一個人在解決推理任務時可能採用的推理過程。

現在來自 Google Research 的研究者們提出了一種稱為「自洽性（self-consistency）」的簡單策略，它顯著提高了大型語言模型的推理準確率。

簡單來說，複雜的推理任務通常有多個能得到正確答案的推理路徑，自洽方法通過思維提示鏈從語言模型中採樣一組不同的推理路徑，然後返回其中最自洽的答案。

該方法在一系列算術和常識推理基準上評估自洽性，可以穩健地提高各種語言模型的準確性，而無需額外的訓練或輔助模型。當與最近的大型語言模型 PaLM-540B 結合使用時，自洽方法將多個基準推理任務的性能提高到 SOTA 水平。

該方法是完全無監督的，預訓練語言模型直接可用，不需要額外的人工注釋，也不需要任何額外的訓練、輔助模型或微調。

該研究在三種大型語言模型上評估一系列算術推理和常識推理任務的自洽性，包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者發現，對於這幾種規模不同的語言模型，自洽方法都能顯著提高其推理能力。與通過貪心解碼（Wei et al., 2022）生成單一思維鏈相比，自洽方法有助於在所有推理任務中顯著提高準確性，如下圖 2 所示。

推薦：用自洽性提升大模型推理能力，谷歌解答基準中 75% 數學問題，比 GPT-3 提升 20%。

論文 4：Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction

作者：Mengmeng Sun、Chenyao Tian 等

論文鏈接：https://onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202112508

摘要：看過電影《毒液》的朋友都知道，「共生體」以液體狀的形式出現，即使被打成肉泥或是一灘水，只要有足夠的時間也可以恢復。現在，具有這般強大修復功能的機器人出現了。

這種「磁性粘液機器人」和粘液怪 slime 同名，是由來自哈爾濱工業大學和香港中文大學的研究者共同研發的，研究發表在同行評審期刊《Advanced Functional Materials》上。

slime 由聚乙烯醇、硼砂和釹磁鐵顆粒的混合物製成。研究團隊成員、香港中文大學教授張立說：「這種材料就像是水和澱粉的混合物，是一種非牛頓流體，其粘度會在外力作用下發生變化。當你快速觸摸它時，它就像一個固體。當你輕輕地、慢慢地觸摸它時，它就像液體一樣。」

由於該粘液中含有釹磁鐵等磁性顆粒，因此能夠由磁鐵控制其移動和變形，並且具有良好的導電性，可與電極相連，充當電路開關。

‍

slime 具備極好的拉伸性能，可以通過 1.5mm 的狹窄縫隙而不斷裂。該研究在相同的磁場條件下，比較了鐵磁流體液滴機器人和 slime 的拉伸能力。

此外，slime 能夠變成 O 形或 C 形來環繞細小的物體，一些科學家認為這可能對消化系統有用，例如減少吞下小電池的危害。他們認為使用這種粘液機器人對電池進行封裝，形成一種惰性塗層，可以避免有毒電解質泄漏的危害。

推薦：來自哈爾濱工業大學和香港中文大學的研究者共同研發了一種磁性粘液機器人，具有強大的變形功能。

論文 5：Video Diffusion Models

作者：Jonathan Ho 、 Tim Salimans 等

論文鏈接：https://arxiv.org/pdf/2204.03458.pdf

‍

摘要：擴散模型並不是一個嶄新的概念，早在 2015 年就已經被提出。其核心應用領域包括音頻建模、語音合成、時間序列預測、降噪等。

那麼它在視頻領域表現如何？先前關於視頻生成的工作通常採用諸如 GAN、VAE、基於流的模型。

在視頻生成領域，研究的一個重要里程碑是生成時間相干的高保真視頻。來自谷歌的研究者通過提出一個視頻生成擴散模型來實現這一里程碑，顯示出非常有希望的初步結果。本文所提出的模型是標準圖像擴散架構的自然擴展，它可以從圖像和視頻數據中進行聯合訓練，研究發現這可以減少小批量梯度的方差並加快優化速度。

為了生成更長和更高分辨率的視頻，該研究引入了一種新的用於空間和時間視頻擴展的條件採樣技術，該技術比以前提出的方法表現更好。

例如生成五彩斑斕的煙花：

這項研究有哪些亮點呢？首先谷歌展示了使用擴散模型生成視頻的首個結果，包括無條件和有條件設置。先前關於視頻生成的工作通常採用其他類型的生成模型，如 GAN、VAE、基於流的模型和自回歸模型。

其次該研究表明，可以通過高斯擴散模型的標準公式來生成高質量的視頻，除了直接的架構更改以適應深度學習加速器的內存限制外，幾乎不需要其他修改。該研究訓練生成固定數量的視頻幀塊的模型，並且為了生成比該幀數更長的視頻，他們還展示了如何重新調整訓練模型的用途，使其充當對幀進行塊自回歸的模型。

下圖左為利用梯度方法的視頻幀，圖右為利用自回歸擴展基線替代（replacement）方法的幀。可以看到，使用梯度方法採用的視頻比基線方法具有更好的時間相干性。

推薦：視頻生成無需 GAN、VAE，谷歌用擴散模型聯合訓練視頻、圖像，實現新 SOTA。

論文 6：Overcoming a Theoretical Limitation of Self-Attention

作者：David Chiang 、 Peter Cholak

論文鏈接：https://arxiv.org/pdf/2202.12172.pdf

摘要：儘管 transformer 模型在許多任務中都非常有效，但它們對一些看起來異常簡單的形式語言卻難以應付。Hahn (2020) 提出一個引理 5），來試圖解釋這一現象。這個引理是：改變一個輸入符號只會將 transformer 的輸出改變 𝑂(1/𝑛)，其中 𝑛 是輸入字符串的長度。

因此，對於接收（即判定某個字符串是否屬於某個特定語言）只取決於單個輸入符號的語言，transformer 可能會以很高的準確度接受或拒絕字符串。但是對於大的 𝑛，它必須以較低的置信度做出決策，即給接受字符串的概率略高於 ½，而拒絕字符串的概率略低於 ½。更準確地說，隨着 𝑛 的增加，交叉熵接近每個字符串 1 比特，這是最壞情況的可能值。

近期，在論文《Overcoming a Theoretical Limitation of Self-Attention》中，美國聖母大學的兩位研究者用以下兩個正則語言（PARITY 和 FIRST）來檢驗這種局限性。

Hahn 引理適用於 PARITY，因為網絡必須關注到字符串的所有符號，並且其中任何一個符號的變化都會改變正確答案。研究者同時選擇了 FIRST 作為引理適用的最簡單語言示例之一。它只需要注意第一個符號，但因為更改這個符號會改變正確答案，所以該引理仍然適用。

儘管該引理可能被解釋為是什麼限制了 transformer 識別這些語言的能力，但研究者展示了三種可以克服這種限制的方法。

首先，文章通過顯式構造表明，以高準確度識別任意長度的語言的 transformer 確實是存在的。研究者已經實現了這些結構並通過實驗驗證了它們。正如 Hahn 引理所預測的那樣，隨着輸入長度的增加，這個構建的 transformer 的交叉熵接近 1 比特（也就是，僅比隨機猜測好一點）。但文章也表明，通過添加層歸一化，交叉熵可以任意接近零，而與字符串長度無關。

研究者在實踐中還發現，正如 Bhattamishra 等人所指出的，transformer 無法學習 PARITY。也許更令人驚訝的是，在學習 FIRST 時，transformer 可能難以從較短的字符串泛化到較長的字符串。儘管這不是 Hahn 引理的邏輯上可以推出的結果，但它是 Hahn 引理預測行為的結果。幸運的是，這個問題可以通過簡單的修改來解決，即將注意力的 logit 乘以 log 𝑛。此修改還改進了機器翻譯中在長度方面的泛化能力。

推薦：有論文檢驗了 transformer 在兩種形式語言上的理論缺陷，並且設計了方法克服這種缺陷。

論文 7：RETHINKING NETWORK DESIGN AND LOCAL GEOMETRY IN POINT CLOUD: A SIMPLE RESIDUAL MLP FRAMEWORK

作者：Xu Ma 、 Can Qin 等

論文鏈接：https://arxiv.org/abs/2202.07123

摘要：3D 點雲數據由於其無序性 (unorderness)、稀疏性 (sparisity) 和不規則性（irregularity）等特點，往往難以處理。為了描述 3D 數據的幾何特徵，研究者專注於局部幾何的獲取，提出各種基於卷積、圖卷積或者注意力機制的「複雜的」局部幾何描述模塊。然而這些操作往往會導致較慢的推理速度，並沒有帶來實質的提高。

近日，來自美國東北大學和哥倫比亞大學的研究者發現，複雜的局部幾何描述模塊也許並不是 3D 網絡的關鍵，一個純 MLP 架構的網絡能取得更好的結果，並且能夠大幅提升推理速度。該論文已被 ICLR 2022 接收，代碼已經開源。

作者引入了一個輕量級的局部幾何仿射模塊，可以自適應地轉換局部區域中的點特徵。由此提出的新網絡架構稱為 PointMLP。下圖顯示了 PointMLP 在 modelNet40 上與其他網絡的速度 / 準確率比較。

PointMLP 的架構非常簡單，與傳統的點雲網絡類似， PointMLP 也採用了階段結構，每一階段（stage）通過最遠點下採樣以減少計算量。下圖展示了 PointMLP 任意一階段的操作。

給定輸入點雲，PointMLP 使用殘差點 MLP 塊逐步提取局部特徵。在每個階段，PointMLP 首先使用幾何仿射模塊（Geometric Affine Module）對局部點進行仿射變換，然後通過幾個殘差 MLP 模塊 (Residual Point Block) 來提取深層的特徵。注意此時的局部區域中仍包含多個點，作者通過一個簡單的聚合器 (使用的是 max-pooling) 來將局部多個點聚合成一個點以描述局部信息，並且再次使用殘差 MLP 模塊來提取特徵。

PointMLP 通過重複多個階段 (每個階段中通道數翻倍) 逐步擴大感受野，並模擬完整的點雲幾何信息。為了進一步提高推理速度、減輕模型大小，該研究減少了每個階段的通道數以及殘差 MLP 模塊的個數，並在殘差 MLP 模塊中引入了瓶頸 (bottleneck) 結構。研究者將得到的更加輕量化的版本稱作 PointMLP-elite。

推薦：純 MLP 的點雲網絡：新架構 PointMLP 大幅提高點雲分類準確率和推理速度。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation，在 7 Papers 的基礎上，精選本周更多重要論文，包括NLP、CV、ML領域各10篇精選，並提供音頻形式的論文摘要簡介，詳情如下：

本周 10篇 NLP 精選論文是：

1. A Distant Supervision Corpus for Extracting Biomedical Relationships Between Chemicals, Diseases and Genes. (from Andrew McCallum)

2. PSP: Pre-trained Soft Prompts for Few-Shot Abstractive Summarization. (from Yang Gao)

3. CUNI-KIT System for Simultaneous Speech Translation Task at IWSLT 2022. (from Alexander Waibel)

4. Label Semantic Aware Pre-training for Few-shot Text Classification. (from Dan Roth)

5. Unified Speech-Text Pre-training for Speech Translation and Recognition. (from Abdelrahman Mohamed)

6. Beam Decoding with Controlled Patience. (from Dragomir Radev, Noah A. Smith)

7. Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation. (from Rong Jin)

8. EHRKit: A Python Natural Language Processing Toolkit for Electronic Health Record Texts. (from Dragomir Radev)

9. Rows from Many Sources: Enriching row completions from Wikidata with a pre-trained Language Model. (from Chin-Yew Lin)

10. Decomposed Meta-Learning for Few-Shot Named Entity Recognition. (from Chin-Yew Lin)

本周 10篇 CV 精選論文是：

1. SpoofGAN: Synthetic Fingerprint Spoof Images. (from Anil K. Jain)

2. Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From Learned Pairwise Affinity. (from Jitendra Malik)

3. Simple Baselines for Image Restoration. (from Xiangyu Zhang, Jian Sun)

4. ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension. (from Trevor Darrell)

5. Rapid model transfer for medical image segmentation via iterative human-in-the-loop update: from labelled public to unlabelled clinical datasets for multi-organ segmentation in CT. (from Lei Zhang)

6. Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal Fusion with Depth Guidance. (from Lei Zhang)

7. Defensive Patches for Robust Recognition in the Physical World. (from Dacheng Tao)

8. Panoptic-PartFormer: Learning a Unified Model for Panoptic Part Segmentation. (from Dacheng Tao)

9. Fashionformer: A simple, Effective and Unified Baseline for Human Fashion Segmentation and Recognition. (from Dacheng Tao)

10. Probabilistic Representations for Video Contrastive Learning. (from Ig-Jae Kim)

本周 10篇 ML 精選論文是：

1. Approximation of Lipschitz Functions using Deep Spline Neural Networks. (from Michael Unser)

2. The Two Dimensions of Worst-case Training and the Integrated Effect for Out-of-domain Generalization. (from Eric P. Xing)

3. METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals. (from Tie-Yan Liu, Jianfeng Gao)

4. Neural Operator with Regularity Structure for Modeling Dynamics Driven by SPDEs. (from Tie-Yan Liu)

5. Out-of-distribution Detection with Deep Nearest Neighbors. (from Xiaojin Zhu)

6. Federated Learning with Partial Model Personalization. (from Abdelrahman Mohamed, Lin Xiao)

7. Unsupervised Anomaly and Change Detection with Multivariate Gaussianization. (from Gustau Camps-Valls)

8. When Should We Prefer Offline Reinforcement Learning Over Behavioral Cloning?. (from Sergey Levine)

9. Generative Negative Replay for Continual Learning. (from Davide Maltoni)

10. Accelerated Policy Learning with Parallel Differentiable Simulation. (from Wojciech Matusik)

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin.com

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

鑽石舞台

鑽石鑽石亮晶晶

機器之心 - 7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度學習的黃金十年；擴散模型生成視頻

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

機器之心 - 7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度學習的黃金十年；擴散模型生成視頻

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結