close
機器之心& ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周論文包括 DeepMind 用 AI 復原古希臘銘文,登 Nature 封面;微軟聯合 OpenAI 提出超參數調優新範式,單個 GPU 上就可以調優 GPT-3 超參數。

目錄:

Restoring and attributing ancient texts using deep neural networks

Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

Rediscovering orbital mechanics with machine learning

End-to-End Referring Video Object Segmentation with Multimodal Transformers

Do We Really Need Deep Learning Models for Time Series Forecasting?

HCSC: Hierarchical Contrastive Selective Coding

Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)


論文 1:Restoring and attributing ancient texts using deep neural networks

作者:Yannis Assael、Thea Sommerschield 等

論文鏈接:https://www.nature.com/articles/s41586-022-04448-z


摘要:在最新一期 Nature 封面文章中,DeepMind 聯合威尼斯大學人類學系、牛津大學經典學院的研究者,探索利用機器學習來幫助歷史學家更好地解釋這些銘文,從而讓人們更深入地了解古代歷史,並釋放 AI 和歷史學家之間合作的潛力。

他們提出了首個可以恢復受損銘文缺失文本、識別原始位置並幫助確定創建日期的深度神經網絡 —— Ithaca,它是以荷馬史詩《奧德賽》中的希臘伊薩卡島命名,在之前的 Pythia 工具上構建並進行了擴展。

研究結果表明,當單獨使用時,Ithaca 在恢復受損銘文文本方面的準確率達到了 62%。相比之下,參與的歷史學家的準確率為 25%,不過他們使用 Ithaca 可以將這一數字提升到 72%。

同時,Ithaca 在識別銘文原始位置方面的準確率達到了 71%,鑑定它們的年代只與真實日期範圍相差不到 30 年。歷史學家已經使用 Ithaca 重新評估了希臘歷史上的重要時期。

此外,為了讓廣大研究人員、教育工作者、博物館職員及其他人使用他們的研究成果,DeepMind 與谷歌雲、谷歌藝術與文化合作推出了 Ithaca 的免費交互版本。並且,DeepMind 還開源了代碼、預訓練模型和交互 Colab 筆記本。

模型核心為稀疏自注意力機制,用來並行計算這兩個輸入(單詞和單個字符)。


Ithaca 的主幹由堆疊的 transformer 塊組成:每個塊輸出一系列處理後的表示,其長度等於輸入字符的數量,每個塊的輸出成為下一個塊的輸入。主幹的最終輸出被傳遞給三個不同的任務頭,分別處理恢復、地理歸屬和時間歸屬。每個頭都由一個淺層前饋神經網絡組成,專門針對每個任務進行訓練。在圖 2 所示的例子中,恢復頭預測了三個丟失的字符;地理歸屬頭將銘文分為 84 個區域,並且按時間順序的歸屬頭將其追溯到公元前 800 年至公元 800 年之間。


推薦:預測過去?DeepMind 用 AI 復原古希臘銘文,登 Nature 封面。

論文 2:Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

作者:Greg Yang 、 Edward J. Hu、 Igor Babuschkin 等

論文鏈接:https://arxiv.org/pdf/2203.03466.pdf


摘要:來自微軟和 OpenAI 的研究者首次提出了基礎研究如何調優大型神經網絡(這些神經網絡過於龐大而無法多次訓練)。他們通過展示特定參數化保留不同模型大小的最佳超參數來實現這一點。利用 µP (Maximal Update Parametrization)將 HP (超參數)從小型模型遷移到大型模型。也就是說,該研究在大型模型上獲得了接近最優的 HP。

具體而言,該研究證明,在 µP 中,即使模型大小發生變化,許多最優的 HP 仍保持穩定。這導致一種新的 HP 調優範式:µTransfer,即在 µP 中對目標模型進行參數化,並在較小的模型上間接調優 HP,將其零樣本遷移到全尺寸模型上,無需調優後者。該研究在 Transformer 和 ResNet 上驗證 µTransfer,例如,1)通過從 13M 參數的模型中遷移預訓練 HP,該研究優於 BERT-large (350M 參數),總調優成本相當於一次預訓練 BERT-large;2)通過從 40M 參數遷移,該研究的性能優於已公開的 6.7B GPT-3 模型,調優成本僅為總預訓練成本的 7%。

與隨機初始化不同,模型訓練期間的行為更難進行數學分析。該研究用 µP 解決,如圖 1 右側所示,該圖顯示了網絡激活擴展(activation scales)在模型寬度增加的最初幾個訓練步驟中的穩定性。

圖 1:在 PyTorch 的默認參數化中,左圖,在經過一次 step 訓練後,激活擴展的寬度會出現差異。但是在右圖的 µP 中,無論訓練 step 寬度如何,激活擴展都會發生一致的變化。

如圖所示,µP 是唯一在寬度上保持最佳學習率的參數化,在寬度為 213 - 8192 的模型中實現了最佳性能,並且對於給定的學習率,更寬的模型性能更好——即曲線不相交。

基於張量程序(Tensor Programs)的理論基礎,µTransfer 自動適用於高級架構,例如 Transformer 和 ResNet。此外,它還可以同時遷移各種超參數。

推薦:微軟聯合 OpenAI 提出 HP 調優新範式,單個 GPU 上就可以調優 GPT-3 超參數。

論文 3:Rediscovering orbital mechanics with machine learning

作者:Pablo Lemos 、 Niall Jeffrey 等

論文鏈接:https://arxiv.org/pdf/2202.02306.pdf


摘要:機器學習 (ML) 推動了科學的巨大進步,從粒子物理學到結構生物學再到宇宙學,機器學習能夠在大型數據集中學習特徵,對不同的對象進行分類,並執行參數推斷,以及更具開創性的應用,例如自回歸語言模型、預測蛋白質結構,以及蛋白質功能預測。機器學習強大的學習能力,我們不禁會問,機器學習能否僅僅通過觀察我們的太陽系來重新發現萬有引力定律?

近日來自薩塞克斯大學、倫敦大學學院等機構的研究者在論文《 Rediscovering orbital mechanics with machine learning 》中對上述問題進行的解答,他們的回答是:可以。

具體而言,該研究提出了一種採用機器學習方法,通過觀察自動發現實際物理系統的控制方程和隱藏屬性。研究者訓練了一個圖神經網絡,通過 30 年的軌跡數據來模擬太陽系的太陽、行星和大型衛星的動力學。然後,他們使用符號回歸來發現神經網絡隱式學習的力學定律解析表達式,結果表明表達式等效於牛頓萬有引力定律。

該研究分為兩個階段:第一階段的學習模擬器基於圖網絡 (GN),圖網絡是一種深度神經網絡,可以通過訓練來逼近圖上的複雜函數。在這裡,太陽系的太陽、行星和衛星的(相對)位置和速度被表示為輸入圖的節點,而天體之間可能的物理交互(例如力)被表示為圖的邊。該研究將基於 GN 的模擬器與 30 年來觀測到的太陽系軌跡進行了擬合。

在第二階段,該研究分離邊函數(edge function),並應用符號回歸擬合邊函數的解析公式,其最好的擬合是對牛頓萬有引力定律的擬合。然後,該研究使用已發現的方程重新擬合未觀察到的(相對)天體質量,並找到了與天體真實質量幾乎完美的擬合。之後研究者可以使用發現的方程和重新學習的質量來模擬太陽系動力學,並獲得與真實觀察到的軌跡非常接近的對應關係。

推薦:給 GNN 一堆數據,它自己發現了萬有引力定律。

論文 4:End-to-End Referring Video Object Segmentation with Multimodal Transformers

作者:Adam Botach、Evgenii Zheltonozhskii、Chaim Baskin

論文鏈接:https://arxiv.org/pdf/2111.14821.pdf

摘要:在被 CVPR 2022 接收的一篇論文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,來自以色列理工學院的研究者提出了一種簡單的、基於 Transformer 的端到端 RVOS 方法——Multimodal Tracking Transformer(MTTR )。

具體地,他們使用 MTTR 將任務建模成序列預測問題。給定一個視頻和文本查詢,該模型在確定文本參考的對象之前為視頻中所有對象生成預測序列。並且,他們的方法不需要與文本相關的歸納偏置模塊,利用簡單的交叉熵損失對齊視頻和文本。因此,該方法相比以往簡單的多。

研究者提出的 pipeline 示意圖如下所示。首先使用標準的 Transformer 文本編碼器從文本查詢中提取語言特徵,使用時空編碼器從視頻幀中提取視覺特徵。接着將這些特徵傳遞給多模態 Transformer 以輸出幾個對象預測序列。然後為了確定哪個預測序列能夠最好地對應參考對象,研究者計算了每個序列的文本參考分數。為此,他們還提出了一種時序分割 voting 方案,使模型在做出決策時專注於最相關的部分。


從實驗結果來看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 數據集上分別實現了 + 5.7 和 + 5.0 的 mAP 增益,同時每秒能夠處理 76 幀。

研究者還展示了一系列不同對象之間的實際分割效果,如下穿白色 T 恤和藍色短褲的衝浪者(淡黃色衝浪板)。


實例分割過程如圖 2 所示:


推薦:單 GPU 每秒 76 幀,重疊對象也能完美分割,多模態 Transformer 用於視頻分割效果驚艷。

論文 5:Do We Really Need Deep Learning Models for Time Series Forecasting?

作者:Shereen Elsayed 、 Daniela Thyssens 等

論文鏈接:https://arxiv.org/pdf/2101.02118.pdf


摘要:來自德國希爾德斯海姆大學計算機科學系的研究者展示了通過精心配置的輸入處理結構,GBRT 等簡單但強大的集成模型在時間序列預測領域能夠媲美甚至超越很多 DNN 模型。

研究者對特徵工程多輸出 GBRT 模型進行了評估,並提出了以下兩個研究問題:

對於用於時間序列預測的基於窗口的學習框架來說,精心配置 GBRT 模型的輸入和輸出結構有什麼效果?
一個雖簡單但配置良好的 GBRT 模型與 SOTA 深度學習時間序列預測框架相比如何?

為了回答這兩個問題,研究者選擇了雙重實驗設置,分別解決兩類預測任務,即系統化方式中的單變量和多變量預測。目的是評估 GBRT 模型以及在頂會(NeurIPS、KDD、SIGIR、ECML、ICML、CIKM、IJCAI、ICLR 等)中出現的 SOTA 深度學習方法。這項研究的整體貢獻可以總結如下:

一,研究者將一個簡單的機器學習方法 GBRT 提升了競品 DNN 時間序列預測模型的標準。首先將 GBRT 轉換成一個基於窗口的回歸框架,接着對它的輸入和輸出結構進行特徵工程,如此便能從額外上下文信息中獲益最多;
二,為了突出輸入處理對時間序列預測模型的重要性,研究者通過實證證明了為什麼基於窗口的 GBRT 輸入設置可以在時間序列預測領域提高 ARIMA 和原版 GBRT 等精心配置的模型所產生的預測性能;
三,研究者比較了 GBRT 與各種 SOTA 深度學習時間序列預測模型的性能,並驗證了它在單變量和雙變量時間序列預測任務中的競爭力。

這種基於窗口的 GBRT 模型輸入設置如圖 1 所示:


為了使所選的深度學習基線和 GBRT 之間具有顯著的可比性,該研究在相同的數據集上評估了所有模型,數據集如下表 1 所示:左邊提供了關於用來評估模型數據集,而右邊則列出了各自的實驗規範:


推薦:梯度提升回歸樹媲美甚至超越多個 DNN 模型。

論文 6:HCSC: Hierarchical Contrastive Selective Coding

作者:Yuanfan Guo 、 Minghao Xu 、 Jiawen Li 等

論文鏈接:https://arxiv.org/pdf/2202.00455.pdf


摘要:來自上海交通大學、Mila 魁北克人工智能研究所和字節跳動的研究者提出了一種基於層級語義結構的選擇性對比學習框架(Hiearchical Contrastive Selective Coding,HCSC)。

這一框架通過將圖像表徵進行層級聚類,構造具有層級結構的原型向量 (hierarhcical prototypes),並通過這些原型向量選擇更加符合語義結構的負樣本進行對比學習, 由此將層級化的語義信息融入到圖像表徵中。該自監督學習框架在多個下游任務中達到卷積神經網絡自監督預訓練方法的 SOTA 性能。


該工作的方法論框架包含兩個重要的模塊: 一個是層級語義結構的構建與維護, 另一個是基於層級語義結構的選擇性對比學習。

在實現過程中, 該研究採用了簡單有效的自底向上層級 K-means 算法, 具體算法流程如下:


推薦:CVPR 2022,CNN 自監督預訓練新 SOTA:上交、Mila、字節聯合提出具有層級結構的圖像表徵自學習新框架。

論文 7:Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network

作者:北京航空航天大學、科大訊飛研究院

項目地址:https://github.com/DIG-Beihang/PSN


摘要:近日,計算機視覺頂級會議 CVPR 2022 接收論文結果已經正式公布,會議接收了一篇由北京航空航天大學、科大訊飛研究院共同完成的工作,論文題目為《Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network》(之後公布論文鏈接)。這項工作以 X 光安檢場景為例,首先從域間偏移產生原因入手,分析由機器硬件參數等原因造成的域間內生偏移和常見的天氣等外部原因造成的域間內生偏移的異同點。此外,該工作還構建了內生偏移自適應能力評估基準,並提出了噪聲抑制網絡,為跨域檢測帶來新的思考。

在本文中,研究者們以 X 光安檢場景為例,首先從域間偏移產生原因入手,結合常見的自然場景變化,分析外生和內生域間偏移的異同點。然後展示研究者們構建的內生偏移自適應能力評估基準,以及噪聲抑制網絡,探索目標檢測模型在複雜環境下由於感知設備變化導致的脆弱性問題,尋找不同類別物體的領域無關特徵的最佳表徵。

在表 1 中,研究者們從不同場景、領域數量和支持的實驗組數分別把 EDS 數據集和跨域檢測任務下各種類型的數據集進行了對比。

表 1 EDS 數據集和傳統跨域檢測數據集對比

圖 1 EDS 數據集中物品實物圖和不同 X 光機器下的成像圖

噪聲抑制網絡的框架圖如圖 4 所示,它包括兩個重要的子模塊,分別是局部原型對齊和全局對抗同化。局部原型對齊模塊主要針對類別相關噪聲,全局對抗同化主要針對類別無關噪聲。以下分別展開敘述。

圖 4 噪聲抑制網絡的結構圖

整個網絡的訓練流程如下:


推薦:CVPR 2022,跨域檢測新任務,北航、訊飛提出內生偏移自適應基準和噪聲抑制網絡。
ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

本周 10篇 NLP 精選論文是:

1. Focus on the Target's Vocabulary: Masked Label Smoothing for Machine Translation. (from Liang Chen)
2. Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation. (from Kathleen McKeown)
3. Sentence-Select: Large-Scale Language Model Data Selection for Rare-Word Speech Recognition. (from Tara N. Sainath)
4. Input-Tuning: Adapting Unfamiliar Inputs to Frozen Pretrained Models. (from Nanning Zheng)
5. DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning. (from Abdelrahman Mohamed)
6. Training language models to follow instructions with human feedback. (from John Schulman)
7. Conditional Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation. (from Jian Liu)
8. Look Backward and Forward: Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation. (from Liang Wang)
9. SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained Language Models. (from Liang Wang)
10. Adaptive Discounting of Implicit Language Models in RNN-Transducers. (from Sunita Sarawagi)

本周 10篇 CV 精選論文是:

1. Leveling Down in Computer Vision: Pareto Inefficiencies in Fair Deep Classifiers. (from Bernhard Schölkopf)
2. Towards Self-Supervised Category-Level Object Pose and Size Estimation. (from Jian Sun)
3. Membership Privacy Protection for Image Translation Models via Adversarial Knowledge Distillation. (from Jian Pei)
4. Building 3D Generative Models from Minimal Data. (from Joshua Tenenbaum)
5. Didn't see that coming: a survey on non-verbal social human behavior forecasting. (from Isabelle Guyon)
6. Fast Neural Architecture Search for Lightweight Dense Prediction Networks. (from Jiri Matas, Janne Heikkila)
7. Contrastive Boundary Learning for Point Cloud Segmentation. (from Dacheng Tao)
8. ART-Point: Improving Rotation Robustness of Point Cloud Classifiers via Adversarial Rotation. (from Dacheng Tao)
9. The Familiarity Hypothesis: Explaining the Behavior of Deep Open Set Methods. (from Thomas G. Dietterich)
10. SelfTune: Metrically Scaled Monocular Depth Estimation through Self-Supervised Learning. (from Dinesh Manocha)

本周 10篇 ML 精選論文是:

1. Learn to Match with No Regret: Reinforcement Learning in Markov Matching Markets. (from Michael I. Jordan)
2. Score matching enables causal discovery of nonlinear additive noise models. (from Bernhard Schölkopf)
3. Interventions, Where and How? Experimental Design for Causal Models at Scale. (from Bernhard Schölkopf)
4. Zero-shot Domain Adaptation of Heterogeneous Graphs via Knowledge Transfer Networks. (from Ruslan Salakhutdinov)
5. DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations. (from Ruslan Salakhutdinov, Louis-Philippe Morency)
6. On the influence of over-parameterization in manifold based surrogates and deep neural operators. (from George Em Karniadakis)
7. A Neuro-vector-symbolic Architecture for Solving Raven's Progressive Matrices. (from Luca Benini)
8. New Insights on Reducing Abrupt Representation Change in Online Continual Learning. (from Tinne Tuytelaars, Joelle Pineau)
9. How to Train Unstable Looped Tensor Network. (from Andrzej Cichocki)
10. Matrix Completion via Non-Convex Relaxation and Adaptive Correlation Learning. (from Xuelong Li)

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()