close
機器之心& ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周論文包括騰訊 AI Lab、清華共同發文綜述等變圖神經網絡;美圖 & 北航分布感知式單階段模型入選 CVPR 2022 等研究。
目錄

Geometrically Equivariant Graph Neural Networks: A Survey

ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints

Distribution-Aware Single-Stage Models for Multi-Person 3D Pose Estimation

A Theory of Abstraction in Reinforcement Learning

Weakly Supervised Object Localization as Domain Adaption

Spelling interface using intracortical signals in a completely locked-in patient enabled via auditory neurofeedback training

Survey on Large Scale Neural Network Training

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)


論文 1:Geometrically Equivariant Graph Neural Networks: A Survey

作者:Jiaqi Han 、 Yu Rong 等

論文鏈接:https://arxiv.org/abs/2202.07230


摘要:騰訊 AI Lab, 清華 AIR & 計算機系在綜述:《Geometrically Equivariant Graph Neural Networks: A Survey》中,對等變圖神經網絡的結構和相關任務進行了一個系統梳理。

在這篇綜述裡面,該研究系統性的梳理了近年等變圖神經網絡的發展脈絡,並且提供了一個簡潔的視角幫助讀者能夠很快的理解這類網絡的內涵。基於消息傳播和聚合函數的不同,該研究將現有的等變圖神經網絡分為三類。與此同時,他們還詳盡闡釋了當前的挑戰和未來的可能方向。

在實際應用中,我們需要處理的圖不僅包含拓撲連接和節點特徵,同時也會包含一些幾何特徵。在使用圖神經網絡處理這些數據的時候,不同的特徵需要滿足不同的性質。例如,在預測分子的能量時,我們需要這個預測對於輸入的幾何特徵是不變的,而在分子動力學應用中,我們則需要預測的結果和輸入的幾何特徵是等變的。為了達到這樣的目的,我們提出了一個等變圖神經網絡的通用框架:


下圖展示了這一通用框架的操作:


基於以上的通用框架,該研究在下表總結了當前主流的等變圖神經網絡模型。與此同時,基於消息表示的類別不同,該研究將現有的等變圖神經網絡模型分為三大類:不可約表示 (Irreducible Representation),正則表示 (Regular Representation) 和標量化 (Scalarization )。

以下是對等變圖神經網絡模型的一個總結梳理:


推薦:GNN for Science: 騰訊 AI Lab、清華共同發文綜述等變圖神經網絡。

論文 2:ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints

作者:Dhruv Shah, Sergey Levine

論文鏈接:https://arxiv.org/pdf/2202.11271.pdf


摘要:在近期一篇論文《ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints》中,UC 伯克利分校的人工智能博士生 Dhruv Shah 及其導師 Sergey Levine 探索了一種不同的機器人導航方式。他們主張機器人導航中消除高端耗能的組件,只需要一個單目相機、一些神經網絡、一個基礎的 GPU 系統以及一些以人類可讀的非常基礎的俯視圖形式的簡單提示就足夠了。這樣的提示聽起來可能沒有那麼有影響力,但它們使一個非常簡單的機器人能夠高效、智能地穿越陌生環境,到達遙遠的目的地。

具體而言,該研究提出了一種基於學習的方法,即將學習和規劃集成起來,並且可以利用諸如示意路線圖、衛星地圖和 GPS 坐標等輔助信息作為規劃啟發式。ViKiNG 結合了一個局部可遍歷性模型,該模型可以查看機器人當前基於相機的觀察結果和一個潛在子目標,以推斷到達子目標難易程度。

此外,ViKiNG 還包括一個啟發式模型,該模型查看俯視圖並嘗試估計各種子目標到目的地的距離。ViKiNG 不執行顯式幾何重建,只利用環境的拓撲表示。儘管在 ViKiNG 訓練數據集中從未見過超過 80 米的軌跡,但其可以利用基於圖像的學習控制器和目標導向啟發式(goal-directed heuristic),在以前沒見過的環境中導航到最遠 3 公里以外的目標,並表現出複雜的行為。ViKiNG 對不可靠的地圖和 GPS 也有很強的魯棒性,因為底層控制器最終基於自身圖像觀察做出決策,而地圖僅作為規劃的啟發式。ViKiNG 機器人的導航是這樣的:


方法概述。

推薦:地圖、GPS 不靠譜也無妨,UC 伯克利機器人陌生環境導航超 3 公里。

論文 3:Distribution-Aware Single-Stage Models for Multi-Person 3D Pose Estimation

作者:Zitian Wang 、 Si Liu 等

論文鏈接:https://arxiv.org/abs/2203.07697


摘要:美圖影像研究院(MT Lab)與北京航空航天大學可樂實驗室(CoLab)在 CVPR 2022 發表的論文,提出一種分布感知式單階段模型,並利用這一模型從單張 RGB 圖片中估計多個人在 3D 相機空間中的人體姿態。該方法將 3D 人體姿態表示為 2.5D 人體中心點和 3D 關鍵點偏移量,以適配圖片空間的深度估計,同時這一表示將人體位置信息和對應的關鍵點信息進行了統一,從而使得單階段多人 3D 姿態估計成為可能。

此外,該方法在模型優化過程中對人體關鍵點的分布進行了學習,這為關鍵點位置的回歸預測提供了重要的指導信息,進而提升了基於回歸框架的精度。這一分布學習模塊可以與姿態估計模塊在訓練過程中通過最大似然估計一起學習,在測試過程中該模塊被移除,不會帶來模型推理計算量的增加。為了降低人體關鍵點分布學習的難度,該方法創新性地提出了一種迭代更新的策略以逐漸逼近目標分布。

該模型以全卷積的方式來實現,可以進行端到端的訓練和測試。通過這樣一種方式,該算法可以有效且精準地解決多人 3D 人體姿態估計問題,在取得和兩階段方法接近的精度的同時,也大大提升了速度。

圖 1:用於多人 3D 人體姿態估計的分布感知式單階段模型流程圖。

與現有方法不同,DAS 模型在優化過程中學習 3D 人體關鍵點分布的真實分布,指導關鍵點回歸預測的過程。考慮到真實分布不可追蹤的問題,DAS 模型利用標準化流(Normalizing Flow)來達到對於模型預測結果概率估計的目標,以生成適合模型輸出的分布,如圖 2 所示。

圖 2:標準化流。

推薦:精準高效估計多人 3D 姿態,美圖 & 北航分布感知式單階段模型入選 CVPR 2022。

論文 4:A Theory of Abstraction in Reinforcement Learning

作者:David Abel

論文鏈接:https://arxiv.org/pdf/2203.00397.pdf


摘要:在前段時間結束的第 36 屆 AAAI 人工智能會議上,大會官方公布了新一屆的 AAAI/ACM SIGAI 博士論文獎,其中一篇專門分析強化學習抽象理論的論文《A Theory of Abstraction in Reinforcement Learning》獲得了該獎項提名。論文作者 David Abel 博士畢業於布朗大學,他於近日將這篇博士論文上傳到了 arXiv 上,共有 295 頁。

在這篇論文中,作者提出了強化學習中蘊含的抽象理論。他首先指出執行抽象過程的函數所必備的三要素:

維護近似最優行為的表示;

它們應該被有效地學習和構建;

計劃或學習時間不應該太長。


然後提出了一套新的算法和分析方案,闡明智能體如何根據這些要素學會抽象。總的來說,這些研究結果為發現和使用抽象提供了一些途徑,從而把有效強化學習的複雜性降至最低。

為了論證本論文的思想,作者從三個方面闡述了哪些抽象在 RL 中有用,並將其研究成果高度概括為如下內容:


更具體地,作者通過以下四個部分對強化學習的抽象理論展開了探討。下圖為論文結構的可視化呈現。


推薦:295 頁博士論文探索強化學習抽象理論,獲 AAAI/ACM SIGAI 博士論文獎提名。

論文 5:Weakly Supervised Object Localization as Domain Adaption

作者:Lei Zhu 、 Qi She 等

論文鏈接:https://arxiv.org/abs/2203.01714


摘要:本文將基於 CAM 的弱監督物體定位過程看作是一個特殊的域自適應任務,即在保證在源圖像級特徵域上訓練的分類器應用在目標像素域時仍具有良好的分類表現,從而使其更好的在測試過程中進行目標定位。從這一視角來看,我們可以很自然的將域自適應方法遷移到弱監督物體定位任務中,使得僅依據圖像標籤訓練的模型可以更為精準的定位目標物體。

目前,這項研究已被 CVPR2022 接收,完整訓練代碼及模型均已開源。主要由北大分子影像 / 醫學智能實驗室朱磊和字節跳動佘琪參與討論和開發,北大分子影像 / 醫學智能實驗室盧閆曄老師給予指導。

圖 1 - 方法整體思想

弱監督物體定位實際上可以看作是在圖像特徵域(源域 S)中依據圖像級標籤(源域金標 Y^s)完全監督地訓練模型 e(∙),並在測試過程中將該模型作用於像素特徵域(目標域 T)以獲取物體定位熱力圖。總的來看,我們的方法希望在此過程中引入域自適應方法進行輔助,以拉近源域 S 與目標域 T 的特徵分布,從而增強在模型 e(∙) 對於目標域 T 的分類效果,因此我們的損失函數可以表示為:


其中 L_c 為源域分類損失,而 L_a 則為域自適應損失。

由於弱監督定位中源域和目標域分別為圖像域和像素域,我們所面臨的域自適應任務具有一些獨有的性質:①目標域樣本與源域樣本的數量並不平衡(目標域樣本是源域的 N 倍,N 為圖像像素數);②目標域中存在與源域標籤不同的樣本(背景像素不屬於任何物體類別);③目標域樣本與源域樣本存在一定聯繫(圖像特徵由像素特徵聚合而得到)。為了更好地考慮這三個特性,我們進而提出了一種域自適應定位損失(DAL Loss)作為 L_a (S,T) 以拉近圖像域 S 與像素域 T 的特徵分布。

圖 2 - 弱監督定位中源域目標域的劃分以及其在弱監督定位中的作用

圖 3 - 整體工作流及目標樣本分配器結構

推薦:CVPR2022 | 利用域自適應思想,北大、字節跳動提出新型弱監督物體定位框架。

論文 6:Spelling interface using intracortical signals in a completely locked-in patient enabled via auditory neurofeedback training

作者:Ujwal Chaudhary 等

論文鏈接:https://www.nature.com/articles/s41467-022-28859-8


摘要:通常漸凍症患者可以使用眼動追蹤攝像頭來選擇屏幕上的字母進行交流。當疾病發展到後期,患者可以通過細微的眼球運動來回答是或否的問題。但是完全失去肌肉控制能力的 ALS 患者,甚至無法控制他們的眼球運動和呼吸能力,也就無法用這種方式實現交流。圖賓根大學的研究團隊構建了一種可以讀取大腦信號的植入設備,ALS 患者能夠使用這種設備來進行交流。這項研究發表在《自然 - 通訊》上。

該研究通過手術將兩個 3.2 毫米寬的方形「皮質內微電極陣列」植入負責運動的大腦皮層,即運動皮層。每個微電極陣列上帶有數十根用於記錄神經信號的微針,然後電線將信號饋送到一個與患者顱骨相連的連接器上。在外部,連接器上設有放大器,能夠將信息數字化並將其發送到計算機。


當患者無法移動時,這種植入設備能夠讀取患者的大腦信號並記錄其移動衝動。這些大腦信號被實時發送給計算機,計算機學會將這些運動嘗試分類為「是」或「否」的響應,使得患者能夠回答其他人詢問的問題。此外,這套設備還可向患者大聲朗讀字母,患者可以對每個字母回答「是」或「否」以拼寫出單詞。


起初,這項研究經歷了一些失敗的實驗,例如當研究者指導參與者嘗試想象手、舌頭或腳的運動時,設備無法檢測到一致的反應。然後研究團隊嘗試採用下圖所示的基於神經反饋的模式。這種模式通過將一個或多個通道的脈衝率度量 ( spike rate metric,SRM) 映射到聽覺反饋音的頻率,向患者提供神經活動的聽覺反饋。參與者在實驗開始後第 86 天第一次嘗試調節音調,隨後在第 98 天成功調節神經信號發射率,並首次將反饋頻率與目標匹配。採用神經反饋策略,從第 106 天起,參與者能夠調節神經激活率(firing rate),並且能夠使用這種方法來選擇和拼寫字母。研究團隊搜索反應最靈敏的神經元,然後探究每個神經元如何隨着參與者的努力而發生變化,依此調整系統。


使用該系統大約 3 周后,他說出了一個可以理解的句子——請求護理人員調整他的位置。

推薦:腦機接口讓漸凍重症患者重獲交流能力。

論文 7:Survey on Large Scale Neural Network Training

作者:Julia Gusak 、 Daria Cherniuk 等

論文鏈接:https://arxiv.org/abs/2202.10435


摘要:俄羅斯斯科爾科沃科學技術研究所、法國里爾大學、波爾多大學、Inria 等科研機構聯合發表了一篇論文《Survey on Large Scale Neural Network Training》,它試圖解決的問題是:若給定模型和計算平台的情形下,如何訓練才是最有效率的。為了使訓練高效,其必須可行,最大程度地利用資源的計算能力,在並行情況下,它不能讓信息傳輸成為瓶頸。訓練的效率從根本上取決於計算內核在計算資源(CPU、TPU、GPU)上的有效實現以及 GPU 之間和不同內存之間通信的有效實現。

在這兩種情況下,人們為優化計算內核的算術強度,及有效實現硬件網絡上的通信做了很多工作。對於使用者來說,已存在強大的分析工具來識別硬件瓶頸,並可用於判定本調查中描述哪些策略可用於解決算術強度、內存和控制交換數據量的問題。

該綜述研究涵蓋了應對這些限制的通用技術。如果由於模型、優化器狀態和激活不適合內存而無法先驗執行計算,則可以使用內存交換計算(重新實現)或數據轉移(激活和權重卸載)。我們還可以通過近似優化器狀態和梯度(壓縮、修剪、量化)來壓縮內存使用。

並行方法(數據並行、模型並行、流水線模型並行)也可以將內存需求分布到多個算力資源上。如果計算的算力強度不足以充分利用 GPU 和 TPU,一般是因為 mini-batch 太小,那麼上述技術也可以增加 mini-batch 的大小。最後,如果使用數據並行引起的通信開銷昂貴到拖累計算速度,則可以使用其他形式的並行(模型並行、流水線模型並行),梯度壓縮也可以限制數據交換的數量。在本次調查中,研究者解釋了這些不同技術是如何工作的,其中描述了評估和比較所提出方法的文獻,還分析了一些實施這些技術的框架。

下表 1 為文章討論的不同技術及其對通信、內存和計算效率的影響。


研究者根據目的區分了以下方法:首先討論減少 GPU 內存使用,隨後考慮對不適合 GPU 的模型使用並行訓練,最後討論為訓練存儲在多個設備上的模型而開發的優化器的設計。

推薦:大規模神經網絡最新文獻綜述。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

本周 10篇 NLP 精選論文是:

1. Improving Meta-learning for Low-resource Text Classification and Generation via Memory Imitation. (from Jian Sun)
2. Converse - A Tree-Based Modular Task-Oriented Dialogue System. (from Michael Jones, Richard Socher)
3. Text Transformations in Contrastive Self-Supervised Learning: A Review. (from Huan Liu)
4. IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks. (from Yan Zhang)
5. Domain Representative Keywords Selection: A Probabilistic Approach. (from Kevin Chen-Chuan Chang, ChengXiang Zhai)
6. Learning Relation-Specific Representations for Few-shot Knowledge Graph Completion. (from Xindong Wu)
7. Chat-Capsule: A Hierarchical Capsule for Dialog-level Emotion Analysis. (from Yao Wang, Minlie Huang)
8. DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and Quantization. (from Dan Roth)
9. Linearizing Transformer with Key-Value Memory Bank. (from Deng Cai)
10. Read Top News First: A Document Reordering Approach for Multi-Document News Summarization. (from Kathleen McKeown)

本周 10篇 CV 精選論文是:

1. Rebalanced Siamese Contrastive Mining for Long-Tailed Recognition. (from Jian Sun, Jiaya Jia)
2. Real-time Object Detection for Streaming Perception. (from Jian Sun)
3. Subjective and Objective Analysis of Streamed Gaming Videos. (from Alan C. Bovik)
4. Vision Transformer with Convolutions Architecture Search. (from Witold Pedrycz)
5. Dataset Distillation by Matching Training Trajectories. (from Antonio Torralba, Alexei A. Efros, Jun-Yan Zhu)
6. Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection. (from Liang Chen)
7. Open-set Recognition via Augmentation-based Similarity Learning. (from Bing Liu)
8. Visual Prompt Tuning. (from Claire Cardie, Serge Belongie)
9. Adaptive Transformers for Robust Few-shot Cross-domain Face Anti-spoofing. (from Ming-Hsuan Yang)
10. CP2: Copy-Paste Contrastive Pretraining for Semantic Segmentation. (from Alan Yuille)

本周 10篇 ML 精選論文是:

1. Deep Reinforcement Learning Guided Graph Neural Networks for Brain Network Analysis. (from Philip S. Yu)
2. Teachable Reinforcement Learning via Advice Distillation. (from Trevor Darrell, Pieter Abbeel)
3. MetaMorph: Learning Universal Controllers with Transformers. (from Li Fei-Fei)
4. AI Poincar\'{e} 2.0: Machine Learning Conservation Laws from Differential Equations. (from Max Tegmark)
5. AI system for fetal ultrasound in low-resource settings. (from Greg Corrado)
6. TCN Mapping Optimization for Ultra-Low Power Time-Series Edge Inference. (from Luca Benini)
7. Training Quantised Neural Networks with STE Variants: the Additive Noise Annealing Algorithm. (from Luca Benini)
8. Knowledge Removal in Sampling-based Bayesian Inference. (from Dacheng Tao)
9. On Supervised Feature Selection from High Dimensional Feature Spaces. (from C.-C. Jay Kuo)
10. Bellman Residual Orthogonalization for Offline Reinforcement Learning. (from Martin J. Wainwright)

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()