新智元 - ICLR 2022博客賽道出爐：接收21篇，特斯拉AI總監也有稿－鑽石舞台

新智元報道

編輯：LRS

【新智元導讀】博客在技術交流中占據着重要的角色，但因其內容的隨意性，似乎讓博客與頂會論文無緣。最近ICLR 2022的博客賽道出爐21篇接收文章，意在用非正式的語言討論正經的科學問題。

把博客當成論文投，是種什麼體驗？

ICLR 2022在去年徵稿時就加了這樣一個實驗性質的新玩法：博客投稿（blog post track），相比論文來說，博客的寫作更加隨意，但也更容易發現新問題、激發新的思考。

接收博文的內容主要是討論以前在ICLR發表過的論文，為了保持客觀中立，不能寫與自己利益衝突的工作，比如自己以前的文章或是源自相同機構或公司的論文。

博客經由雙盲評審以保證內容的質量、問題的新穎性，即論述的清晰度、新的理論或實驗見解，可重複的擴展實驗等。

本次共接收了21篇博客文章，其中包括一篇特斯拉AI高級總監Andrej Karpathy的受邀報告，回顧了33年前的神經網絡與今天的區別。

網站地址：https://iclr-blog-track.github.io/

接收博客的研究內容五花八門，從各種神經網絡trick的重新思考到特定領域的近期論文總結，看起來絕對比看論文要省腦力。

博客的寫法也是百無禁忌，使用表情包，以輕鬆、口語化的對話讓讀者更快理解內容，確實能夠起到科學傳播和討論的作用。

文章鏈接：https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/

並且文章里也是直接「貼代碼」，可復現的概率直接拉滿。

下面簡要介紹幾篇接收的博客文章。

Adam的收斂性

博客鏈接：https://iclr-blog-track.github.io/2022/03/25/does-adam/

研究人員重新審視了Adam的（非）收斂行為，並簡要回顧了Reddi等人的非收斂結果和Shi等人的收斂結果。這兩個結果是否相互矛盾？如果不是，Shi等人的收斂分析是否符合Adam的實際設置？理論和實踐之間的差距有多大？這篇博客從多個不同的角度討論這些問題。實驗結果將表明，這個差距實際上是不可忽略的，關於Adam收斂性的討論還遠遠沒有結束。

文章的指導作者為羅智泉，於1984年在北京大學數學系獲學士學位，1989年獲得美國麻省理工學院博士學位，1998年成為加拿大麥克馬斯特大學終身教授。

2014年5月，羅智泉教授被聘為香港中文大學（深圳）副校長，主管學術和科研。自2016年3月起，羅智泉教授兼任深圳市大數據研究院院長。自 2018年 6月起，羅智泉教授兼任香港中文大學（深圳）-騰訊 AI LAB 機器智能聯合實驗室主任。2020年9月，羅智泉教授兼任香港中文大學（深圳）—深圳市大數據研究院—華為未來網絡系統優化創新實驗室主任。

羅智泉教授的研究主要集中在優化理論、算法設計以及其在信息科學中的應用。

從幾何學看深度學習

圖神經網絡（GNN）一直是機器學習研究的一個活躍領域，用於解決圖數據中的各種問題。圖是表示實體（作為節點）之間關係的一種有效的方式，有時節點和邊可以有空間特徵，如節點的三維坐標和邊的方向。如何在考慮這些幾何特徵的同時對圖的拓撲結構進行推理？這篇博客討論了發表在ICLR 2021上的論文Learning from Protein Structure with Geometric Vector Perceptrons。

博客鏈接：https://iclr-blog-track.github.io/2022/03/25/euclidean_geometric_graph/

文章的第一作者Zichen Wang是AWS下亞馬遜機器學習解決方案實驗室的應用科學家，2016年在西奈山伊坎醫學院獲得博士學位。研究興趣包括自然語言處理、生成模型、圖神經網絡、對比學習和強化學習的應用。在生命科學和醫療保健領域有超過10年的經驗，致力於開發利用生物醫學數據的機器學習模型，用於藥物發現和人類疾病建模。

重新思考ValueDice

許多實際應用涉及順序決策。對於這些應用，代理人實施一個政策來選擇行動並使長期回報最大化。模仿學習方法（Imitation learning）從專家的演示中獲得最優策略，並成功應用於遊戲、推薦系統和機器人學等。模仿學習的里程碑之一是引入生成式對抗性模仿學習（GAIL），以對抗方式進行狀態-動作分布匹配。即使在專家演示稀缺的情況下，GAIL也被經驗證明可以匹配專家的表現。代價是GAIL需要大量的環境交互，也限制了GAIL在在線環境下的應用。

其中一個改進策略就是ValueDice，作為一種off-policy算法，ValueDice在交互效率方面優於其他方法。現有的結果都表明ValueDice是完美的。這篇博客研究的核心問題為：這些改進是否得益於更先進的算法設計？並對算法內的「矛盾」做出解釋。