close
機器之心& ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天

本周論文包括 MIT 造出的薄如紙的音響,以及騰訊 AI Lab 用全新策略優化算法在 1 V 1麻將中戰勝人類冠軍的「絕藝」。


目錄

Mugs: A Multi-Granular Self-Supervised Learning Framework

E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning

Contact Points Discovery for Soft-Body Manipulations with Differentiable Physics

An Ultra-Thin Flexible Loudspeaker Based on a Piezoelectric Micro-Dome Array

Actor-Critic Policy Optimization in a Large-Scale Imperfect-Information Game

BOAT: Bilateral Local Attention Vision Transformer

Too Afraid to Drive: Systematic Discovery of Semantic DoS Vulnerability in Autonomous Driving Planning under Physical-World Attacks

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

論文 1:Mugs: A Multi-Granular Self-Supervised Learning Framework

作者:Chao Lou、Wenjuan Han、Yuhuan Lin 等

論文鏈接:https://arxiv.org/pdf/2203.14415.pdf


摘要:現在的自監督學習方法一般都只側重於單粒度特徵的學習。譬如,最經典的對比學習 MoCo [2] 構建實例識別任務來區分單個實例。這樣一來,MoCo 側重學習更多實例級的細粒度特徵,但是它不考慮數據中粗粒度的類別結構(cluster structure)。另外一類具有代表性的自監督學習是基於聚類的自監督學習,包含 DINO [3],DeepCluster [4] 等。這類方法將類似的實例聚到同一個虛擬類別中,從而學習聚類級別的粗粒度特性。然而,它不能很好地處理對細粒度特性有所需求的下游任務。因此,在下游任務的特徵偏好未知的情況下,我們應該構建一個學習多粒度特徵的自監督學習框架,以便儘可能多地處理不同下游任務。

本文中,顏水成老師帶領的 Sea AI Lab 提出了一種多粒度自監督學習框架 Mugs [1],用以學習不同粒度的非監督特徵,從而滿足不同下游任務對不同粒度甚至多粒度特徵的需求。在相同的實驗設置下(相同數據集和模型等),該方法大幅超越了目前最好的自監督學習方法。在沒有使用額外數據的情況下,該方法在 ImageNet 數據集上取得了目前最高的線性評估準確率(linear probing accuracy)82.1% 以及最高的 KNN 分類準確率 80.3%。

Mugs 自監督學習整體框架。

在 ImageNet-1K 上 Linear Probing 和 KNN 的精度對比。

Mugs 預訓練的 ViT-Base/16 上的自注意力可視化。

推薦:滿足不同下游任務特徵需求!Sea AI Lab 提出多粒度自監督學習框架 Mugs,刷新多項 SOTA。

論文 2:E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning

作者:Jiangjie Chen、Rui Xu、Ziquan Fu 等

論文鏈接:https://arxiv.org/abs/2203.08480


摘要:類比在人類認知中占有重要地位,通過類比可以發現新的見解和證明日常的推理,比如老師在課堂上用煮熟的雞蛋類比地球的構造,使得學生很快理解了不能親自體驗的知識。由於在多個領域有着獨特價值,類比成為了人工智能研究領域的重要問題。在 NLP 中,我們比較熟悉的是以多選題形式出現的詞類比識別問題,然而現有的詞類比數據集關注簡單的二元類比關係,並且缺乏用於屆時類比推理過程的標註信息。因此,解答這一類問題並不能揭示神經網絡模型類比推理的內在過程,這對探究類比的內部性質來說是不利的 [6]。我們亟需一類更困難的、可解釋的類比推理數據集。

本文介紹來自復旦大學、字節跳動人工智能實驗室等機構研究者的最新工作 E-KAR,相關工作已經被 ACL 2022 Findings 接收。E-KAR 是首個可解釋的知識密集型類比推理數據集,由 1,655 個(中文)和 1,251 個(英文)來自中國公務員考試的問題組成,並提出了類比推理問題的兩個基準任務,用於教會和驗證模型學習類比的能力。

BATS 數據集中的示例。

類比推理中的結構映射。

詞嵌入在 E-KAR 和簡單類比數據集上的準確率。

推薦:復旦、字節等推出首個可解釋類比推理數據集,中英雙語。

論文 3:Contact Points Discovery for Soft-Body Manipulations with Differentiable Physics

作者:Sizhe Li、Zhiao Huang、Tao Du 等

論文鏈接:https://openreview.net/forum?id=mmUA7_O9mjY


摘要:最近的研究表明,可微分物理是解決軟體控制任務的強大工具。然而,當末端執行器的初始接觸點次優或在多階段任務中執行接觸點切換時,可微物理求解器經常會卡住並導致局部最小值。

為了解決該問題,來自羅徹斯特大學、MIT 等機構的研究者提出了一種接觸點發現方法 (CPDeform)。該方法的關鍵思想是將基於最優傳輸的接觸點發現算法集成到可微物理求解器中,以克服初始接觸點次優或接觸點切換時的局部極小值,並在單階段任務和多階段任務上分別取得良好性能。論文已被 ICLR 2022 接收為 Spotlight Presentation。

在多階段任務上,CPDeform 基於運輸優先級可以迭代切換末端執行器的接觸點。

CPDefeorm 對於操縱器的放置。

CPDeform 迭代變形的過程。

推薦:讓 AI 學會捏橡皮泥飛機,羅徹斯特大學、MIT 等提出接觸點發現算法 CPDeform。

論文 4:An Ultra-Thin Flexible Loudspeaker Based on a Piezoelectric Micro-Dome Array

作者:Jinchi Han、Jeffrey Lang、Vladimir Bulovic

論文鏈接:https://ieeexplore.ieee.org/document/9714188


摘要:麻省理工學院的工程師們開發出了一種像紙一樣薄的揚聲器,可以將任何表面變成音源。它的重量相當於一個 10 美分的硬幣,無論粘在什麼表面上都能生成高品質的聲音。這種薄膜揚聲器產生的聲音失真最小,而且使用的能量也比傳統揚聲器少得多。為了實現這些特性,研究人員開創了一種看似簡單的製造技術,只需要三個基本步驟。利用這種技術,他們可以製造出足夠大的超薄揚聲器,覆蓋汽車內部或整個房間。

此外,這種薄膜揚聲器可以通過產生振幅相同但相位相反的聲音,在嘈雜的環境(如飛機駕駛艙)中進行主動降噪。這種靈活的設備還可以用於沉浸式娛樂,比如在劇院或主題公園裡提供三維音頻。由於它重量輕,運行時需要的電量很少,因此非常適合電池壽命有限的智能設備應用。

實物展示。

薄膜揚聲器的設計。

推薦:MIT 造出薄如紙的音響,可鋪滿全屋。

論文 5:Actor-Critic Policy Optimization in a Large-Scale Imperfect-Information Game

作者:Haobo Fu、Weiming Liu、Shuang Wu 等

論文鏈接:https://openreview.net/pdf?id=DTXZqTNV5nW


摘要:對於 AI 領域的研究者和從業者來說,騰訊 AI Lab 研發的圍棋 AI「絕藝」的名字並不陌生。自 2016 年面世後,它已四次奪得世界頂級賽事冠軍,包括 UEC 杯、AI 龍星戰、騰訊世界人工智能圍棋大賽、世界智能圍棋公開賽等,並自 2018 年起無償擔任中國國家圍棋隊訓練專用 AI。在圍棋以外,騰訊 AI Lab 絕藝團隊持續深入研究大規模二人零和博弈問題,從完美信息遊戲(圍棋)逐步拓展至非完美信息遊戲(例如麻將)。

4 月 25 日,騰訊 AI Lab 宣布棋牌類 AI「絕藝」取得新突破,在 1v1 麻將(二人雀神)測試中戰勝職業冠軍選手。團隊在大規模強化學習算法框架下提出了一個新的策略優化算法 Actor-Critic Hedge (ACH),部分解決了大規模深度強化學習自博弈收斂不到納什均衡最優解的問題。該算法及對應二人麻將 benchmark 已通過論文開源,並被機器學習頂會 ICLR 2022 收錄。

ACH 具體算法流程。

針對 1v1 麻將的具體神經網絡設計圖。

二人麻將:「二人雀神」。

推薦:讓絕藝上桌打麻將,騰訊 AI Lab 全新策略優化算法戰勝人類冠軍。

論文 6:BOAT: Bilateral Local Attention Vision Transformer

作者:Tan Yu、 Gangming Zhao、 Ping Li 等

論文鏈接:https://arxiv.org/pdf/2201.13027v1


摘要:在這項研究中,來自百度研究院和香港大學的研究者重新思考了局部自注意力機制,提出了特徵空間局部注意力(feature-space local attention 或簡稱 FSLA)。這種局部注意力從圖像內容出發,把特徵相似的 token 聚成類,並且只在每類特徵的內部計算自注意力,相比全局自注意力顯著降低了計算量,同時基本保留了原始的全局自注意力機制對遠距離特徵依賴的建模能力。

為了將特徵空間局部注意力與圖像空間局部注意力相結合,本文作者進一步提出了雙邊局部注意力 ViT (簡稱 BOAT),把特徵空間局部注意力模塊加入到現有的基於窗口的局部注意力視覺 Transformer 模型中,作為圖像空間局部注意力的補充,大大提升了針對遠距離特徵依賴的建模能力,在幾個基準數據集上的大量實驗表明結合了特徵空間局部注意力的模型明顯優於現有的 ConvNet 和 ViT 模型。

BOAT 架構示意圖。

BLA 快架構圖。

算法 1:平衡二進制聚類。

推薦:引入特徵空間,顯著降低計算量:雙邊局部注意力 ViT 性能媲美全局注意力。

論文 7:Too Afraid to Drive: Systematic Discovery of Semantic DoS Vulnerability in Autonomous Driving Planning under Physical-World Attacks

作者:Ziwen Wan、Junjie Shen、Jalen Chuang 等

論文鏈接:https://www.ndss-symposium.org/wp-content/uploads/2022-177-paper.pdf


摘要:如今,高等級自動駕駛(AD)車輛,即在大多數情況下可以在沒有人類駕駛員的情況下自動駕駛的車輛,已經公開上路。一些公司,如 Waymo、百度、GM Cruise,也已經在提供沒有安全駕駛員公共服務。在大規模部署之前,了解此類系統中可能存在的安全風險非常重要。典型的自動駕駛系統具有傳感、規劃和控制步驟。傳感步驟使用不同的傳感器(例如,相機、激光雷達、GPS)來了解周圍環境。規劃步驟根據周圍環境生成駕駛軌跡。規劃將為自動駕駛車輛做出關鍵任務決策,例如避免碰撞、變道。控制步驟將為車輛生成控制命令,使其可以完成計劃的軌跡。

先前的工作研究了在各種物理世界攻擊下感知的安全風險,例如傳感器欺騙或設計具有惡意外觀、紋理或形狀的對象。在這項工作中,我們完成了第一個特定於規劃的安全分析。我們想研究攻擊者是否可以通過簡單地以正常方式改變周圍環境(例如在另一條車道上駕駛另一輛車,或將常見物體放置在車道外)來將規劃決策變為意想不到的決策。

自動駕駛規劃語義 DoS 漏洞的問題定義。

Planfuzz 系統設計總覽。

Autoware.AI 車道行駛的語義 DoS 漏洞以及可能帶來的追尾。

推薦:畏首畏尾的自動駕駛安全風險:自動駕駛規劃中語義 DoS 漏洞系統化分析。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

本周 10篇 NLP 精選論文是:

1. Efficient Training of Neural Transducer for Speech Recognition. (from Hermann Ney)
2. On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model. (from Kyunghyun Cho)
3. ICDBigBird: A Contextual Embedding Model for ICD Code Classification. (from George Michalopoulos)
4. $G^2$: Enhance Knowledge Grounded Dialogue via Ground Graph. (from Yang Gao)
5. Embedding Knowledge for Document Summarization: A Survey. (from Jian Yang, Xindong Wu)
6. Query2Particles: Knowledge Graph Reasoning with Particle Embeddings. (from Hongming Zhang)
7. Persona-Guided Planning for Controlling the Protagonist's Persona in Story Generation. (from Minlie Huang)
8. Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition?. (from Jian Wu)
9. UBERT: A Novel Language Model for Synonymy Prediction at Scale in the UMLS Metathesaurus. (from Srinivasan Parthasarathy)
10. A Thorough Examination on Zero-shot Dense Retrieval. (from Ji-Rong Wen)

本周 10篇 CV 精選論文是:

1. Focal Sparse Convolutional Networks for 3D Object Detection. (from Xiangyu Zhang, Jian Sun, Jiaya Jia)
2. Visual Attention Emerges from Recurrent Sparse Reconstruction. (from Trevor Darrell)
3. Reliable Visual Question Answering: Abstain Rather Than Answer Incorrectly. (from Trevor Darrell, Marcus Rohrbach)
4. Contrastive Test-Time Adaptation. (from Trevor Darrell)
5. Self-Supervised Video Object Segmentation via Cutout Prediction and Tagging. (from Mubarak Shah)
6. Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation. (from Mubarak Shah)
7. Source-Free Domain Adaptation via Distribution Estimation. (from Dacheng Tao)
8. Neural Maximum A Posteriori Estimation on Unpaired Data for Motion Deblurring. (from Dacheng Tao)
9. ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation. (from Dacheng Tao)
10. EMOCA: Emotion Driven Monocular Face Capture and Animation. (from Michael J. Black)

本周 10篇 ML 精選論文是:

1. PyGOD: A Python Library for Graph Outlier Detection. (from Philip S. Yu)
2. Estimating and Penalizing Induced Preference Shifts in Recommender Systems. (from Stuart Russell)
3. On Fragile Features and Batch Normalization in Adversarial Training. (from Bernt Schiele)
4. Federated Learning Enables Big Data for Rare Cancer Boundary Detection. (from Christos Davatzikos)
5. Reinforced Causal Explainer for Graph Neural Networks. (from Tat-Seng Chua)
6. Long-term Spatio-temporal Forecasting via Dynamic Multiple-Graph Attention. (from Junshan Zhang)
7. Provably Efficient Kernelized Q-Learning. (from Hao Su)
8. Staying the course: Locating equilibria of dynamical systems on Riemannian manifolds defined by point-clouds. (from Ioannis G. Kevrekidis)
9. Differentially Private Learning with Margin Guarantees. (from Mehryar Mohri)
10. ISTRBoost: Importance Sampling Transfer Regression using Boosting. (from Yang Liu)

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()