機器之心& ArXiv Weekly Radiostation本周論文包括來自阿伯丁大學、MIT 等機構的研究者對 ML 三要素中的算力需求進行了研究,發現自 2010 年以來,ML 算力需求增長 100 億倍,每 6 個月翻番,深度學習成分水嶺;CMU 創建一個開源的 AI 代碼生成模型,C 語言表現優於 Codex。Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
The evolution, evolvability and engineering of gene regulatory DNA
An Image Patch is a Wave: Quantum Inspired Vision MLP
COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING
GroupViT: Semantic Segmentation Emerges from Text Supervision
A SYSTEMATIC EVALUATION OF LARGE LANGUAGE MODELS OF CODE
OUR-GAN: One-shot Ultra-high-Resolution Generative Adversarial Networks
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs作者:丁霄漢等
論文鏈接:https://arxiv.org/abs/2203.06717
摘要:近日,清華大學、曠視科技等機構的研究者發表於 CVPR 2022 的工作表明,CNN 中的 kernel size 是一個非常重要但總是被人忽略的設計維度。在現代模型設計的加持下,卷積核越大越暴力,既漲點又高效,甚至大到 31x31 都非常 work(如下表 5 所示,左邊一欄表示模型四個 stage 各自的 kernel size)!即便在大體量下游任務上,該研究提出的超大卷積核模型 RepLKNet 與 Swin 等 Transformer 相比,性能也更好或相當!1. 通過一系列探索性的實驗,總結了在現代 CNN 中應用超大卷積核的五條準則:用 depth-wise 超大卷積,最好再加底層優化(已集成進開源框架 MegEngine)
加 shortcut
用小卷積核做重參數化(即結構重參數化方法論,見去年的 RepVGG,參考文獻 [1])
要看下游任務的性能,不能只看 ImageNet 點數高低
小 feature map 上也可以用大卷積,常規分辨率就能訓大 kernel 模型
2. 基於以上準則,簡單借鑑 Swin Transformer 的宏觀架構,該研究提出了一種架構 RepLKNet,其中大量使用超大卷積,如 27x27、31x31 等。這一架構的其他部分非常簡單,都是 1x1 卷積、Batch Norm 等喜聞樂見的簡單結構,不用任何 attention。3. 基於超大卷積核,對有效感受野、shape bias(模型做決定的時候到底是看物體的形狀還是看局部的紋理?)、Transformers 之所以性能強悍的原因等話題的討論和分析。該研究發現,ResNet-152 等傳統深層小 kernel 模型的有效感受野其實不大,大 kernel 模型不但有效感受野更大而且更像人類(shape bias 高),Transformer 可能關鍵在於大 kernel 而不在於 self-attention 的具體形式。例如,下圖 1 分別表示 ResNet-101、ResNet-152、全為 13x13 的 RepLKNet、kernel 大到 31x31 的 RepLKNet 的有效感受野,可見較淺的大 kernel 模型的有效感受野非常大。該研究以 Swin 作為主要的對比對象,並無意去刷 SOTA,所以簡單借鑑 Swin 的宏觀架構設計了一種超大卷積核架構。這一架構主要在於把 attention 換成超大卷積和與之配套的結構,再加一點 CNN 風格的改動。根據以上五條準則,RepLKNet 的設計元素包括 shortcut、depth-wise 超大 kernel、小 kernel 重參數化等。推薦:大到 31x31 的超大卷積核,漲點又高效,解讀 RepLKNet。論文 2:The evolution, evolvability and engineering of gene regulatory DNA作者:Eeshit Dhaval Vaishnav、Carl G. de Boer 等
論文鏈接:https://www.nature.com/articles/s41586-022-04506-6
摘要:近日,來自麻省理工學院和哈佛大學博德研究所等機構的研究者開發了一種新框架來研究調控 DNA 的適應度地形。該研究利用在數億次實驗測量結果上進行訓練的神經網絡模型,預測酵母菌 DNA 中非編碼序列的變化及其對基因表達的影響,登上了最新一期《自然》雜誌的封面。該研究還設計了一種以二維方式表示適應度地形的獨特方式,使其對於酵母以外的其他生物也能夠理解已有的實驗結果並預測非編碼序列的未來演變,甚至有望為基因治療和工業應用設計自定義的基因表達模式。麻省理工學院研究生 Eeshit Dhaval Vaishnav、哥倫比亞大學助理教授 Carl de Boer(論文共同一作)等人創建了一個神經網絡模型來預測基因表達。他們在一個數據集上訓練模型,並觀察每個隨機序列如何影響基因表達,該數據集是通過將數百萬個完全隨機的非編碼 DNA 序列插入酵母菌中生成的。他們專注於非編碼 DNA 序列的一個特定子集——啟動子,它是蛋白質的結合位點,可以打開或關閉附近的基因。首先,為了確定他們的模型是否有助於合成生物學應用,如生產抗生素、酶和食物,研究人員使用它來設計能夠為任何感興趣的基因產生所需表達水平的啟動子。然後,他們查閱了其他的科學論文,以確定基本的演化問題,看看他們的模型能否幫助解答這些問題。該團隊甚至還從一項現有研究中獲取了真實世界的種群數據集,其中包含了世界各地酵母菌株的遺傳信息。通過這些方法,他們能夠描繪出過去數千年的選擇壓力,這種壓力塑造了今天的酵母基因組。但是,為了創造一個可以探測所有基因組的強大工具,研究人員需要找到一種方法,在沒有這樣一個全面的種群數據集的情況下預測非編碼序列的進化。為了實現這一目標,Vaishnav 和他的同事們設計了一種計算方法,允許他們將來自框架的預測繪製到二維圖上。這幫助他們以非常簡單的方式展示了任何非編碼 DNA 序列如何影響基因表達和適應度,而無需在實驗室工作檯進行任何耗時的實驗。推薦:MIT 設計深度學習框架登 Nature 封面,預測非編碼區 DNA 突變。論文 3:An Image Patch is a Wave: Quantum Inspired Vision MLP作者:Yehui Tang 、 Kai Han 、 Jianyuan Guo 等
論文鏈接:https://arxiv.org/abs/2111.12294
摘要:來自華為諾亞方舟實驗室、北京大學、悉尼大學的研究者提出了一種受量子力學啟發的視覺 MLP 架構,在 ImageNet 分類、COCO 檢測、ADE20K 分割等多個任務上取得了 SOTA 性能。該研究受量子力學中波粒二象性的啟發,將 MLP 中每個圖像塊 (Token) 表示成波函數的形式,從而提出了一個新型的視覺 MLP 架構——Wave-MLP,在性能上大幅超越了現有 MLP 架構以及 Transformer。量子力學是描述微觀粒子運動規律的物理學分支,經典力學可被視為量子力學的特例。量子力學的一個基本屬性是波粒二象性,即所有的個體(比如電子、光子、原子等)都可以同時使用粒子的術語和波的術語來描述。一個波通常包括幅值和相位兩個屬性,幅值表示一個波可能達到的最大強度,相位指示着當前處在一個周期的哪個位置。將一個經典意義上的粒子用波(比如,德布羅意波)的形式來表示,可以更完備地描述微觀粒子的運動狀態。那麼,對於視覺 MLP 中的圖像塊,能不能也把它表示成波的形式呢?該研究用幅值表達每個 Token 所包含的實際信息,用相位來表示這個 Token 當前所處的狀態。在聚集不同 Token 信息的時候,不同 Token 之間的相位差會調製它們之間的聚合過程(如圖 3 示)。考慮到來自不同輸入圖像的 Token 包含不同的語義內容,該研究使用一個簡單的全連接模塊來動態估計每個 Token 的相位。對於同時帶有幅度和相位信息的 Token,作者提出了一個相位感知 Token 混合模塊(PATM,如下圖 1 所示)來聚合它們的信息。交替堆疊 PATM 模塊和 MLP 模塊構成了整個 Wave-MLP 架構。相比現有的視覺 Transformer 和 MLP 架構,Wave-MLP 有着明顯的性能優勢(如下圖 2 所示)。在 ImageNet,Wave-MLP-S 模型上以 4.5G FLOPs 實現了 82.6% 的 top-1 準確率,比相似計算代價的 Swin-T 高 1.3 個點。此外,Wave-MLP 也可以推廣到目標檢測和語義分割等下游任務,展現出強大的泛化性能。圖 2:Wave-MLP 與現有視覺 Transformer、MLP 架構的比較推薦:圖像也是德布羅意波!華為諾亞 & 北大提出量子啟發 MLP,性能超越 Swin Transfomer。論文 4:COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING作者:Jaime Sevilla 、 Lennart Heim 、 Anson Ho 等
論文鏈接:https://arxiv.org/pdf/2202.05924.pdf
摘要:近日來自阿伯丁大學、MIT 等機構的研究者對 ML 三要素中的算力需求進行了研究。他們發現,在 2010 年之前訓練所需的算力增長符合摩爾定律,大約每 20 個月翻一番。自 2010 年代初深度學習問世以來,訓練所需的算力快速增長,大約每 6 個月翻一番。2015 年末,隨着大規模 ML 模型的出現,訓練算力的需求提高了 10 到 100 倍,出現了一種新的趨勢。基於上述發現,研究者將 ML 所需算力歷史分為三個階段:前深度學習時代;深度學習時代;大規模時代。總的來說,該論文詳細研究了里程碑式 ML 模型隨時間變化的算力需求。收集了 123 個具有里程碑意義的 ML 系統數據集,並對算力進行了注釋;
初步將算力趨勢劃分為三個不同的階段;
對算力結果進行檢查,討論了與以前工作的不同之處。
研究者根據三個不同的時代和三種不同的趨勢來解讀他們整理的數據。簡單來說,在深度學習起飛前,有一個緩慢增長的時代。大約在 2010 年,這一趨勢加速並且此後一直沒有放緩。另外,2015 至 2016 年大規模模型出現了一個新趨勢,即增長速度相似,但超越以往兩個數量級(orders of magnitude, OOM)。具體可見下圖 1 和表 2。圖 1:1952 年以來,里程碑式 ML 系統隨時間推移的訓練算力(FLOPs)變化。如果將深度學習時代的開始定為 2010 或 2012 年,研究者的結果幾乎沒有變化,具體如下表 3 所示。圖 2:1952 至 2022 年期間,里程碑式 ML 系統的算力變化趨勢。請特別注意 2010 年左右的坡度變化。表 3:1952 至 2022 年 ML 模型的對數線性回歸結果。推薦:2010 年以來,ML 算力需求增長 100 億倍,每 6 個月翻番,深度學習成分水嶺。論文 5:GroupViT: Semantic Segmentation Emerges from Text Supervision作者:Jiarui Xu 、 Shalini De Mello 、 Sifei Liu 等
論文鏈接:https://arxiv.org/pdf/2202.11094.pdf
摘要:來自加州大學聖聖地亞哥分校和英偉達的研究者提出這樣一個問題:我們是否也可以學習一個純文本監督的語義分割模型,無需做任何像素標註,就能夠以零樣本方式泛化到不同對象類別或詞彙集?為了實現這一點,他們提出將分組機制加入深度網絡。只要通過文本監督學習,分組機制就可以自動生成語義片段。方法概覽如下圖 1 所示,通過對具有對比損失的大規模配對圖文數據進行訓練,可以讓模型不需要任何進一步的注釋或微調的情況下,能夠零樣本遷移學習得到未知圖像的語義分割詞彙。該研究的關鍵思想是利用視覺 Transformer(ViT)在其中加入新的視覺分組模塊,研究者將新模型稱為 GroupViT(分組視覺 Transformer)。
GroupViT 包含按階段分組的 Transformer 層的分層結構,每個階段會處理逐漸放大的視覺片段。右側的圖像顯示了在不同分組階段要處理的視覺片段。在初期階段模型將像素分組為局部對象,例如大象的鼻子和腿。在更高的階段進一步將它們合併成整體,例如整個大象和背景森林。每個分組階段都以一個分組塊結束,該塊會計算學習到的組標記和片段(圖像)標記之間的相似度。相似度高的組會分配給同一組的段標記併合並在一起,並做進入下一個分組階段的新段標記。圖 2:(a) GroupViT 的架構和訓練流程。(b) 分組塊的架構。推薦:做語義分割不用任何像素標籤,UCSD、英偉達在 ViT 中加入分組模塊,入選 CVPR 2022。論文 6:A SYSTEMATIC EVALUATION OF LARGE LANGUAGE MODELS OF CODE作者:Frank F. Xu 、 Uri Alon 等
論文鏈接:https://arxiv.org/pdf/2202.13169.pdf
摘要:在近日一篇論文中,來自 CMU 計算機科學學院的幾位研究者對跨不同編程語言的現有代碼模型——Codex、GPT-J、GPT-Neo、GPT-NeoX 和 CodeParrot 進行了系統評估。他們希望通過比較這些模型來進一步了解代碼建模設計決策的前景,並指出關鍵的缺失一環,即迄今為止,沒有大規模開源語言模型專門針對多編程語言的代碼進行訓練。研究者推出了三個此類模型,參數量從 160M 到 2.7B,並命名為「PolyCoder」。研究者首先對 PolyCoder、開源模型和 Codex 的訓練語評估設置進行了廣泛的比較;其次,在 HumanEval 基準上評估這些模型,並比較了不同大小和訓練步的模型如何擴展以及不同的溫度如何影響生成質量;最後,由於 HumanEval 只評估自然語言和 Python 生成,他們針對 12 種語言中的每一種都創建了相應未見過的評估數據集,以評估不同模型的困惑度。結果表明,儘管 Codex 聲稱最擅長 Python 語言,但在其他編程語言中也表現出奇得好,甚至優於在 Pile(專為訓練語言模型設計的 825G 數據集)上訓練的 GPT-J 和 GPT-NeoX。不過,在 C 語言中,PolyCoder 模型取得的困惑度低於包括 Codex 在內的所有其他模型。下圖 1 展示了現有語言代碼模型及它們的大小和可用性,除 Codex 和 Austin'21 之外全部開源。研究者還討論了代碼語言建模中使用的三種流行的預訓練方法,具體如下圖 2 所示。推薦:CMU 創建一個開源的 AI 代碼生成模型,C 語言表現優於 Codex。論文 7:OUR-GAN: One-shot Ultra-high-Resolution Generative Adversarial Networks作者:Donghwee Yoon 、 Junseok Oh 等
論文鏈接:https://arxiv.org/pdf/2202.13799.pdf
摘要:傳統生成模型通常從相對較小的圖像數據集中,基於 patch 分布學習生成大型圖像,這種方法很難生成視覺上連貫的圖像。OUR-GAN 以低分辨率生成視覺上連貫的圖像,然後通過超分辨率逐漸提升分辨率。由於 OUR-GAN 從真實的 UHR 圖像中學習,它可以合成具有精細細節的大規模形狀,同時保持遠距離連貫性。OUR-GAN 應用無縫銜接的子區域超分辨率,在內存受限的條件下合成 4K 或更高分辨率的 UHR 圖像,並解決了邊界不連續的問題。此外,OUR-GAN 通過向特徵圖添加垂直位置嵌入來提高多樣性和視覺連貫性。在 ST4K 和 RAISE 數據集上的實驗結果表明:與現有方法相比,OUR-GAN 表現出更高的保真度、視覺連貫性和多樣性。我們來看一下 OUR-GAN 的合成效果,下圖(上)是 OUR-GAN 訓練使用的單個 4K 圖像,(下)是 OUR-GAN 合成的 16K (16384 x 10912) 圖像。以下幾組是 OUR-GAN 合成的 4K 風景圖:OUR-GAN 成功合成了具有多種圖案的高質量紋理圖像:OUR-GAN 通過三個步驟合成占用有限 GPU 內存的 UHR 圖像,如下圖 3 所示。首先,OURGAN 生成低分辨率的全局結構。然後通過 in-memory 超分辨率在內存限制內儘可能提高分辨率。最後,OURGAN 通過逐個子區域應用超分辨率來進一步提高超出內存限制的分辨率來合成 UHR 圖像。超分辨率模型的輸出分辨率受限於訓練圖像的分辨率。然而,ZSSR 和 MZSR 已經證明,通過利用信息的內部循環,超分辨率模型可以生成比訓練圖像大 2 到 4 倍的圖像。推薦:首個單樣本(one-shot)超高分辨率(UHR)圖像合成框架 OUR-GAN,能夠從單個訓練圖像生成具有 4K 甚至更高分辨率的非重複圖像。ArXiv Weekly Radiostation機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:本周 10篇 NLP 精選論文是:
1. Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models Robust with Little Cost. (from Gaël Varoquaux)2. Don't Say What You Don't Know: Improving the Consistency of Abstractive Summarization by Constraining Beam Search. (from Daniel S. Weld)3. Ask to Understand: Question Generation for Multi-hop Question Answering. (from Yang Gao)4. Long Document Summarization with Top-down and Bottom-up Inference. (from Bo Pang, Silvio Savarese)5. ConTinTin: Continual Learning from Task Instructions. (from Jia Li)6. Continual Prompt Tuning for Dialog State Tracking. (from Minlie Huang)7. EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training. (from Minlie Huang)8. elBERto: Self-supervised Commonsense Learning for Question Answering. (from Lawrence Carin)9. Label Semantics for Few Shot Named Entity Recognition. (from Dan Roth)10. Staged Training for Transformer Language Models. (from Kurt Keutzer)本周 10篇 CV 精選論文是:
1. Object discovery and representation networks. (from Evan Shelhamer, Andrew Zisserman)2. Masked Visual Pre-training for Motor Control. (from Trevor Darrell, Jitendra Malik)3. Progressive End-to-End Object Detection in Crowded Scenes. (from Xiangyu Zhang, Jian Sun)4. PETR: Position Embedding Transformation for Multi-View 3D Object Detection. (from Xiangyu Zhang, Jian Sun)5. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs. (from Xiangyu Zhang, Jian Sun)6. Unsupervised Semantic Segmentation by Distilling Feature Correspondences. (from Noah Snavely, William T. Freeman)7. Integrating Language Guidance into Vision-based Deep Metric Learning. (from Oriol Vinyals)8. Non-isotropy Regularization for Proxy-based Deep Metric Learning. (from Oriol Vinyals)9. Continual Learning Based on OOD Detection and Task Masking. (from Bing Liu)10. DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection. (from Quoc V. Le, Alan Yuille)1. Invariance in Policy Optimisation and Partial Identifiability in Reward Learning. (from Stuart Russell)2. Machine Learning Based Multimodal Neuroimaging Genomics Dementia Score for Predicting Future Conversion to Alzheimer's Disease. (from Alzheimer's Disease Neuroimaging Initiative)3. Fine-tuning Global Model via Data-Free Knowledge Distillation for Non-IID Federated Learning. (from Dacheng Tao)4. Do We Really Need a Learnable Classifier at the End of Deep Neural Network?. (from Zhouchen Lin, Dacheng Tao)5. Gradient Correction beyond Gradient Descent. (from Wen Gao)6. Task-Agnostic Robust Representation Learning. (from Philip Torr)7. No free lunch theorem for security and utility in federated learning. (from Kai Chen)8. Generalized Bandit Regret Minimizer Framework in Imperfect Information Extensive-Form Game. (from Yang Gao)9. Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling. (from Tong Zhang)10. Multi Stage Screening: Enforcing Fairness and Maximizing Efficiency in a Pre-Existing Pipeline. (from Avrim Blum)©THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com