PaperWeekly - 一文梳理ICML 2022中圖機器學習熱點和趨勢－鑽石舞台

Aug 28 Sun 2022 01:30
PaperWeekly - 一文梳理ICML 2022中圖機器學習熱點和趨勢

©作者 |Mikhail Galkin，Zhaocheng Zhu

譯者 |Zhaocheng Zhu

單位 |Mila研究所/麥吉爾大學/蒙特利爾大學

研究方向 |圖機器學習，知識圖譜

每年 ICML 都匯集了全球頂級 AI 研究者們的不少工作。在剛過去的 ICML 2022 中，我們看到了上百篇圖機器學習相關的工作，以及不少相關的 Workshop [1]。在此，我們和大家來分享一下當下圖機器學習中的研究熱點。

我們盡力在這篇文章中涵蓋 ICML 中圖機器學習的所有方向，每篇方向介紹 2-4 篇論文。由於 ICML 的論文數量龐大，這篇文章難免會遺漏了一些工作。歡迎在文末評論指出。

圖生成

今年，Denoising diffusion probabilistic model（DDPM [2]）以其超越 GAN 和 VAE 的生成質量和理論性質，席捲了深度學習的諸多領域，例如：圖像生成（GLIDE [3]，DALL-E 2 [4]，Imagen [5]），視頻生成 [6]，文本生成（Diffusion-LM [7]），甚至是在 RL 中使用 diffusion [8]。簡單來說，diffusion model 對輸入逐步增加噪聲（直到它完全變成高斯白噪聲），然後學習預測每一步增加的噪聲，從而反向消除這些噪聲，從噪聲中生成輸入。

在圖機器學習中，diffusion 可能是今年最熱的方向——尤其是在藥物發現，conformation generation，量子化學等領域中。diffusion 通常會和最新的 equivariant GNN 結合使用。今年 ICML 里我們看到了許多有意思的基於 denoising diffusion 的圖生成工作。

Hoogeboom 等人在 Equivariant Diffusion for Molecule Generation in 3D[9]中定義了一種 equivariant diffusion model（EDM）用於解決 conformation generation。EDM 對三維歐式空間變換（即旋轉，平移和翻轉）具有 equivariance，以及對輸入點 feature 上的群運算具有 invariance。值得注意的是，分子的 feature 具有很多不同的 modality：比如電荷數是個整數標量，原子類型是個 one-hot feature，分子坐標則是實數向量。因此在分子上用 diffusion 模型的難點在於，你沒法通過對所有 feature 暴力加相同的高斯噪聲使得模型 work。對此，這篇論文設計了一種針對不同 feature 的加噪方法和 loss，並且調整輸入 feature 的尺度來使訓練更加穩定。

EDM 用 SotA 的E(n) GNN [10]來根據輸入 feature 和時間步預測增加的噪聲強度。在測試的時候，我們先採樣一個原子數 M，然後基於給定的性質 c，讓 EDM 來生成分子（由 feature x 和 h 控制）：

EDM 在 negative log-likelihood，molecule stability，uniqueness 等指標上都大幅超過基於 normalizing flow 和基於 VAE 的生成方法。Ablation study 證明了 equivariant GNN 對性能非常重要，無法被普通的 MPNN 取代。EDM 的代碼已經在 GitHub 上開源 [11]，值得一試！

▲ Diffusion 的正向和反向過程。來源：Hoogeboom 等人的工作[12]

▲Diffusion動態過程演示。來源：Twitter [13]

Jo，Lee 和 Hwang 提出了解決二維圖生成的 Graph Diffusion via the System of Stochastic Differential Equations（GDSS）[14]。前面提到的 EDM 是一種 denoising diffusion probabilistic model（DDPM），GDSS 則屬於 DDPM 的一個近親，score-based model。前不久 ICLR』21 的工作 [15] 得出一個結論，如果我們把正向的 diffusion 過程用隨機微分方程（SDE）解釋的話，DDPM 和 score-based model 是可以統一為一個框架的。

SDE 允許模型在連續空間裡像 Wiener process [16]（可以理解為一種花式加噪聲的方式）那樣進行 diffusion，而 DDPM 通常需要離散化成 1000 步加噪過程和時間步的 embedding。

當然，SDE 需要依賴一些複雜的求解器進行計算。跟先前 score-based 圖生成方法比，GDSS 取鄰接矩陣和點 feature 作為輸入，並同時預測這兩。SDE 中的正向和反向 diffusion 需要計算 score，也就是和聯合概率的對數的梯度。為了預測這個聯合概率，我們需要一個score-based model。論文裡作者們用的是一個帶 attention pooling 的 GNN [17]。

訓練過程需要解一個 forward SDE，並且訓一個 score model。測試時，我們用訓好的 score model 來求解 reverse-time SDE。通常這需要涉及到 Langevin dynamics [18]，例如 Langevin MCMC，不過理論上也可以用高階的 Runge-Kutta [19] 求解器。GDSS 在二維圖生成任務中大幅超過 autoregressive 生成模型和 one-shot VAE，儘管由於 reverse-time SDE 的存在，採樣速度不盡人意。GDSS 的代碼 [20] 已經開源了！

▲ GDSS模型。來源：Jo，Lee和Hwang的工作 [14]

根據最近 arXiv 的情況來看，估計今年還會有不少 diffusion model 出來——DDPM 在圖上的應用值得我們單獨開一篇博客來寫。大家可以期待一下！

最後我們來介紹一篇非 diffusion 的生成工作。Martinkus 等人 [21] 提出了SPECTRE [22]，一種解決 one-shot graph generation 的 GAN 模型。跟其他直接生成鄰接矩陣的 GAN 不同的是，SPECTRE 根據 Laplacian 的最小的 k 個特徵值和特徵量來生成圖。這意味着我們可以顯示控制圖的連通性和聚類屬性。

生成的過程一共有三步：1）SPECTRE 先生成 k 個特徵值；2）在最小 k 個特徵向量導出的 Stiefel manifold [23] 上採樣得到 k 個特徵向量。Stiefel manifold 涵蓋了各種標準正交陣，我們可以從中采單個的矩陣；3）最後，論文用 Provably Powerful Graph Net [24] 把特徵值和特徵向量轉化為鄰接矩陣。

SPECTRE 在實驗上比其他 GAN 方法有極大的提升，並且比 autoregressive 的圖生成方法快了近 30 倍。

▲ SPECTRE的三步生成過程：特徵值→特徵向量→鄰接矩陣。來源：Martinkus等人 [21]

圖Transformer

今年 ICML 有兩篇工作改進了圖 Transformer。

第一篇論文是 Chen 等人 [25] 提出的 Structure-Aware Transformer（SAT）。他們注意到 self-attention可以看作一種用 exponential kernel 作為query-key product 的 kernel smoothing。從這個角度，我們可以探討如何設計一種更 general 的 kernel。

這篇論文提出用點和圖上的函數，k-subtree 和 k-subgraph 來增加 Transformer 對結構信息的表達能力。k-subtree 即點的 k-hop 鄰域，可以被非常快速地提取出來，但表達能力無法超過 1-WL test。而 k-subgraph 的計算代價則更大，但是能提供更強的表達能力。

無論你使用哪種 feature 方式，我們都可以用一個 GNN（例如 PNA）來 encode每個點的 subtree 或 subgraph，通過圖層面的 pooling（sum / mean / 虛擬點）得到一個 feature，用在 Transformer 的 self-attention 里作為 query 和 key（見下圖）。

實驗表明，在 k-subtree 和 k-subgraph 中，k 取 3 或者 4 即可。當我們能接受 k-subgraph 的計算時間時，k-subgraph 得到的結果要明顯好於 k-subtree。一個有趣的現象是，諸如 Laplacian 的特徵向量和隨機遊走 feature 等 positional feature 只對 k-subtree SAT 有用，對 k-subgraph SAT 並無太大幫助。

▲ 來源：Chen等人 [25]

第二篇論文是 Choromanski，Lin，Chen 等人 [26]（和著名的線性 attention 論文 Performer [27] 幾乎是同一撥人）研究 sub-quadratic 複雜度的 attention 的工作。具體來說，他們考慮了圖像、音頻、視頻和圖等不同 modality 下 relative positional encoding（RPE）及其變種。

就圖而言，我們知道在 attention 中使用最短路距離的 Graphformer 很好用，但它的計算需要實例化整個 attention 矩陣（也就不 scalable）。我們能否設計一種不需要實例化整個矩陣，同時又能整合圖 inductive bias 的 softmax attention 方式呢？

答案是肯定的！這篇論文就提出了兩種機制：1）我們可以用 Graph Diffusion Kernel（GDK）。GDK 又叫作 heat kernel，可以用於模擬熱傳播的過程，在這裡我們可以把它看作一種 soft 的最短路。然而 Diffusion 需要通過特殊的求解器來計算矩陣的冪，所以這篇論文設計了另一種方案；2）Random Walks Graph-Nodes Kernel（RWGNK）用於計算兩個點各自隨機遊走產生的頻率向量的點乘。

沒錯，隨機遊走就是這麼有效！大家可以在下方圖里看到 diffusion 和隨機遊走 kernel 的結果。論文最終用的基於 RWGNK 的 transformer 叫作 Graph Kernel Attention Transformer（GKAT），並在一眾合成數據集、計算生物數據集和社交網絡數據集上進行了測試。GKAT 在合成任務上取得了更好的結果，在其他圖任務上跟普通 GNN 齊平。可以說，有了這篇工作，Transformer 的 scalability 幾乎只受制於輸入本身的大小了！

▲ 來源：Choromanski，Lin，Chen等人 [26]

GNN理論和表達能力

整個 GNN 領域一直在努力尋找突破 1-WL test 同時保持較低的多項式複雜度的GNN 設計。

Papp 和 Wattenhofer [28] 對理論領域現狀提出了一個精準的總結：

每當一個新的 GNN 變種出現時，大家總會用理論去論證這個模型比 1-WL test 強，有時候還會跟經典的 k-WL 分類系統進行比較…… 我們能否設計一個更有意義的衡量 GNN 表達能力的方式？

這篇論文將 GNN 表達能力的相關工作分為了 4 個大類：1）k-WL 家族及其近似；2）子結構計數（S 類）；3）提取子圖和鄰域的 GNN（N 類）（Michael Bronstein 最近的一篇博客詳細探討過這類 [39]）；4）帶標記的 GNN，例如在點或者邊上進行擾動或者打標記的（M 類）。論文在理論框架下討論了 k-WL，S，N 和 M 四類的關係，以及哪個比哪個強，強多少。這套分類系統比 k-WL 更加精細，有助於設計恰好覆蓋任務需求同時節省計算成本的 GNN。

▲ GNN表達能力的分類系統。N表示子圖GNN，S表示子結構計數，M表示帶標記的GNN。來源：Papp和Wattenhofer [28]

今年 ICMl 最「香」的論文估計是 Morris 等人 [28] 的 SpeqNet了（註：Speq 在德語裡是培根 speck 的諧音）。我們知道高階的 k-WL GNN 要麼依賴 k 維tensor，要麼需要考慮所有 k 個點組成的子圖，都是關於 k 指數增長的複雜度，沒法充分利用圖的稀疏性。SpeqNet 提出了一種新的圖同構問題的啟發算法 (k,s)-WL，可以更精細地控制表達能力和速度的取捨。

論文探討了一種只需要考慮部分點集的局部 k-WL test，避免了 k-WL 那樣指數的時間複雜度。具體來說，論文中只考慮不超過 s 個連通分量的 k 元組或 k 個點組成的子圖，有效地利用了圖的稀疏特性。通過調整 k 和 s 的取值，我們可以從理論上控制模型的速度和表達能力。

基於上述思想，論文提出了一類新的 permutation-equivariant 的 GNN，SpeqNet。和高階 GNN 相比，SpeqNet 在點和圖任務的監督學習上大幅降低了計算時間。相較於標準 GNN 和圖 kernel 而言，SpeqNet 顯著提高了預測性能。

▲ SpeqNet模型。來源：Morris等人 [28]

下一篇論文是 Huang 等人 [30] 的一個神奇發現：精挑細選的 permutation-sensitive GNN 能比常規的 permutation-invariant GNN 具有更強的表達能力。在此之前，Janossy pooling [31] 曾提出，任何一個 permutation-sensitive 的模型，只要在訓練中見過輸入數據的所有 permutation 變換，就能達到 permutation-invariant 的效果。

Janossy pooling 的問題是個元素的 permutation 變換，本身就高達種，複雜度無法接受。這篇論文提出，即便是只考慮一個點鄰域中每個點對的 permutation，模型的表達能力也強於 2-WL test，甚至不差於 3-WL test。

從實現上來說，論文提出的 PG-GNN [32] 可以看作 GraphSAGE 的一種擴展。PG-GNN 用一個雙層的 LSTM 來聚合一個點鄰域，而不是像常規 GNN 中使用 sum/mean/min/max 來聚合。此外，論文還基於 Hamilton 迴路設計了一種線性的 permutation 採樣算法。

▲ PG-GNN中permutation-sensitive的聚合方式。來源：Huang等人[30]

其他有趣的理論文章還有：

Cai 和 Wang [33] 研究了 Invariant Graph Networks [34]（IGN）的收斂性質。跟一般 MPNN 不同的是，IGN 把點和邊的 feature 當作一個完整的 tensor 進行操作。基於 graphon [35] 理論，論文發現某一類 IGN 的收斂性是有理論保證的。作者們發了一個很棒的 Twitter [36] 來介紹這個工作！

Gao 和 Riberio [37] 研究了兩類時序 GNN：1）時序與圖——先用 GNN embed 每個時間點上的圖，再用 RNN 處理時序；2）先時序後圖——在一個疊加所有時間點的圖上，先用 RNN encode 所有點和邊的 feature，再用 GNN 處理一遍。典型的方法有 TGN [38] 和 TGAT [39]。

論文從理論上證明了當我們用 1-WL GNN（例如 GCN 或者 GIN）時，先時序後圖的表達能力更強。基於此，論文提出了一個簡單的 GRU+GCN 的模型。這個模型在時序點分類和回歸任務上，能取得跟已有模型相近的結果，同時節約顯存以及快 3-10 倍不等。有趣的是，論文指出無論是時序與圖，還是先時序後圖，它們的表達能力對於時序邊預測任務都是不夠的。

最後一篇論文是來自 Chen，Lim，Mémoli，Wan 和 Wang 等人 [40]（五位共一）的 Weisfeiler-Lehman Meets Gromov-Wasserstein。他們從 WL kernel出發，推出了一種多項式複雜度的 WL 距離 [41]，可以用于衡量兩個圖的差異大小。WL 距離為 0 當且僅當兩張圖無法被 WL test 區分，非 0 當且僅當它們可以被 WL test 區分。論文還指出 WL 距離和 Gromov-Wasserstein 距離 [42] 有很強的聯繫！

▲ 當Weisfeiler-Leman遇上Gromov-Wasserstein。Chen，Lim，Mémoli，Wan和Wang等人 [40] 應該用這個圖的。來源：Tenor [43]

譜GNN

我們估計大多數人只關注 GNN 堆模型的手法，很少有人留意譜 GNN，不過下面這篇論文可能會讓你有入坑譜 GNN 的想法。在 Wang 和 Zhang [44] 提出的 How Powerful are Spectral Graph Neural Networks 中，他們發現，只需一些簡單的假設，就可以證明線性譜 GNN 是一個圖上任意函數的 universal approximator。更有意思的是，這些簡單的假設在主流的數據集上都成立。換言之，一個線性的譜 GNN 的表單能力，對於半監督點分類任務而言已經足夠了！

但不同的譜 GNN 在實驗中還是有性能上的區別的，這又如何解釋呢？論文證明了選擇不同的 parameterization（各種多項式基函數），會對譜 GNN 的收斂速度產生影響。我們知道 Hessian 矩陣的 condition number（相當於 loss 面上等高線有多圓）能直接決定 SGD 的收斂速度。

基於這個思路，論文提出用正交的多項式基函數來幫助優化。論文中使用的 Jacobi 基函數 [45]，是 ChebyNet [46] 中使用的 Chebyshev 基函數 [47] 的一種更廣義形式。Jacobi 基函數由和兩個超參數決定。我們可以通過調整這兩超參，找到一組有助於擬合輸入圖信號的基函數。

雖然是個線性譜模型，JacobiConv 在 homophilic 數據集和 heterophilic 數據集上都取得了很好的效果。至少在點分類任務上，我們可以拋棄那些過於複雜、華而不實的模型了。

今年還有兩篇跟譜 GNN 相關的論文。一篇是根據譜 concentration analysis 推出的 Graph Gaussian Convolutional Networks [48]（G2CN），在 heterophilic 數據集取得了不錯的效果。另外一篇是 Yang 等人 [49] 根據譜平滑程度分析圖卷積中相關性問題的論文。他們的模型在 ZINC 數據集上取得了 0.0698 的 MAE，非常厲害。

可解釋的GNN

由於絕大多數 GNN 模型都是個黑箱，研究可解釋的 GNN 對於 GNN 的應用來說有着很大的意義。今年 ICML我們有兩篇這樣的文章，一篇是 Xiong 等人 [50] 提出的一種高效且強大的 post-hoc 解釋算法，一篇則是 Miao 等人 [51] 的直接可解釋模型。

Xiong 等人 [50] 對他們之前一篇可解釋的 GNN 工作 GNN-LRP [52] 的效率進行了大幅改進。跟之前 post-hoc 解釋算法（GNNExplainer [53]，PGExplainer [54]，PGM-Explainer [55]）不同的是，GNN-LRP 是一種高階的子圖貢獻算法。

GNN-LRP 考慮一個子圖中所有點的聯合貢獻，而不是點的獨立貢獻的總和。這對於依賴子圖聯合語義的任務有很大的價值。比如說在分子中，6 個碳原子組成的子圖（一般不考慮氫原子），可以是一個苯環（環結構），也可以是個己烷（鏈結構）。僅考慮點的獨立貢獻無法區分這兩子圖的語義。下圖中展示了高階貢獻算法（右）和低階貢獻算法（左）的這種效果差別。

▲ 低階貢獻（左）與高階貢獻（右）。來源：Xiong等人[50]

當然，高階總是有代價的。GNN-LRP 需要考慮子圖中所有可能的隨機遊走，對於一個子圖 S 和 L-hop 的隨機遊走來說，其時間複雜度是。解決辦法當然是用動態規劃了。我們注意到模型預測對於一個隨機遊走的導數是乘法關係（鏈式法則），而對不同隨機遊走之間的導數是加法關係。於是我們可以用 sum-product 算法來高效地求解這個問題。

本質上來說，這利用的是乘法對加法的分配律（離散數學裡把這樣的兩個運算符叫作半環 [56]）。原本枚舉所有路徑的問題，就變成了每步中枚舉一步轉移的問題。由此，我們得到了多項式複雜度的 subgraph GNN-LRP [57]（sGNN-LRP）。

sGNN-LRP 中還定義了一種廣義的子圖貢獻，除了考慮子圖 S 中的隨機遊走外，還考慮其補圖，也就是 G\S 中的隨機遊走。雖然看起來很複雜，其實這個問題數學上可以化歸為跑兩次 sum-product 算法。和已有算法相比，sGNN-LRP 不僅能找到最準確的貢獻，而且跑得跟普通的 GNN 一樣快。未來解釋 GNN 模型的工具就是它了！

對了，隨機遊走比普通的點或者邊 feature 具有更強的表達能力不是什麼新鮮事了。去年 NeurIPS 的工作 NBFNet [58] 就是用隨機遊走定義兩個點之間的關係，並且也是用動態規劃解決隨機遊走的複雜度問題。NBFNet 當時靠這個取得了 transductive 和 inductive setting 下，多個數據集上逆天的 SotA 性能。

Miao 等人 [51] 從另一個角度出發，研究了直接可解釋的 GNN 模型。他們指出諸如 GNNExplainer [53] 等 post-hoc 解釋算法，由於用一個固定死的 GNN 模型，是存在一定問題的。他們覺得一個同時學習預測任務和解釋的 GNN 模型，效果能更好。

從這個角度出發，他們從圖 information bottleneck 原理出發，推導出了 graph stochastic attention（GSAT）[59]。GSAT 模型先 encode 輸入圖，然後從後驗分布中採樣一個子圖（解釋圖），並根據這個子圖進行預測。相比 post-hoc 解釋算法，這樣做的一個好處是不需要對解釋圖的大小做任何限制。

▲ GSAT模型。來源：Miao等人[51]

GSAT 在實驗中比 post-hoc 解釋算法不僅預測點數高，解釋質量也更好。此外，GSAT 也可以套在一個預訓練好的 GNN 上，把它 finetune 成一個可解釋模型。如果你的任務需要一個直接能解釋的 GNN 模型，可以試試 GSAT。

圖增強和鄰域採樣

今年 ICML 有些超越簡單的點或邊擾動的圖 augmentation 方法，為 GNN 自監督訓練提供了不錯的工具。

Han 等人 [60] 借鑑圖像增強的 mixup 方法 [61]，提出了 G-Mixup。這篇論文也是 ICML 2022 的 Oustanding Paper Award 得主之一。Mixup 早在 2017 年就有了，其思想是對於兩張圖像，把它們的 feature 混合插值，同時把它們的標籤混合插值（有一個可調節的混合比例），然後讓模型根據插值輸入預測插值輸出。Mixup 能提高模型的魯棒性和泛化能力。

但如何對兩張點數和邊數不同的圖進行混合插值呢？

這篇論文給出了一個精妙的解法：與其混合圖，不如混合 graphon。簡而言之，graphon 可以理解為圖的生成器。如果兩張圖由同一個生成器生成，它兩的 graphon 就相同。有了 graphon [35]，解法就很簡單了：1）對於兩張圖，我們求解它們的 graphon；2）我們對兩個 graphon 進行插值得到一個新的 graphon；3）根據新的 graphon 採樣得到一個圖和它的標籤；4）把圖和標籤扔到模型里進行訓練。

在下圖所示的例子裡，兩張圖分別有 2 個和 8 個強連通分量。將它們的 graphon 混合後，我們得到了一張具有 2 個大 community，每個 community 里又有 4 個小 community 的圖。Graphon 的求解有很多不同的方法，性能和複雜度也有所不一，文章里主要使用的是 largest gap 算法。

▲ G-Mixup方法。來源：Han等人[60]

G-Mixup 跟傳統的點或者邊擾動算法取得了相近的性能，但在高噪聲環境下有着更魯棒的效果。眾所周知，圖增強遠比圖像增強難得多，而 G-Mixup 成功把圖像增強的知名算法用到了圖上！如果你對 mixup 感興趣的話，ICML 還有兩篇工作：mixup 與標定 [62]，mixup 與生成模型 [63]。

Liu 等人 [64] 則提出了 Local Augmentation GNNs [65]（LA-GNN）處理點的鄰域較小的情況下的增強，其核心思路是用一個生成模型給每個點產生額外的 feature。他們在全圖上訓了一個 conditional VAE，用於根據每個點預測其鄰居的 feature。有了這個 CVAE 後，我們只需要把一個點的 feature 輸入進去，就能得到其鄰居的增強 feature。

點的 feature 和增強 feature 可以一起用在 GNN 和下游任務中。CVAE 可以脫離 GNN 單獨訓練，然後固定 CVAE 訓練 GNN 和下游任務。有趣的是，CVAE 是可以用於沒見過的圖的，也就是說這類 local augmentation 是 inductive 的！實驗表明，這類增強確實適合度數較小的點的。

▲ 圖局部增強算法。來源：Liu等人[64]

下一篇是 Yu，Wang 和 Wang 等人 [66] 提升 GNN 速度的工作。普通的鄰域採樣算法，例如 GraphSAGE，會導致鄰域以指數速度增長和過時的歷史 embedding。這篇論文則是提出了 GraphFM，利用 momentum 和 1-hop 鄰域來更新每個點的歷史 embedding。在此之前，momentum 常用於各種自監督學習算法中（BYOL [67]，BGRL [68]）來更新 target 模型的參數。這篇論文則是用 momentum 來降低不同 mini-batch 之間歷史 representation 的方差，並為不同鄰域大小的 feature 更新進行無偏估計。

GraphFM 提供了兩種模式，GraphFM-InBatch 和 GraphFM-OutOfBatch：1）GraphFM-InBatch 適用於 GraphSAGE 風格的採樣，可以大幅減少所需的鄰居數目。GraphSAGE 一般每層需要擴展 10-20 個鄰居，而 GraphFM 每層每個點只需要擴展一個鄰居。沒錯，一個！2）GraphFM-OutOfBatch 則基於 GNNAutoScale。它先將整張圖劃分成 k 個 minibatch，再進行採樣。

實驗表明，feature momentum 對 GraphSAGE 風格的採樣有奇效（in-batch版）。如果你用基於鄰域採樣的 GNN，可以考慮用 GraphFM 作為默認實現！

最後是 Zhao 等人 [69] 為鏈路預測設計的一種取巧的增強方式。這篇論文使用了 counterfactual 的邊進行增強，用論文中的一句話來概括就是：

如果整張圖的結構發生了變化，這條邊還會存在嗎？

我們希望找一些鄰域結構上相似的（有很多方式可以定義相似，例如 SBM 聚類，k 核分解，Louvain 方法等等），但鏈路預測結果不同的邊。這篇論文猜想，如果一個 GNN 能正確地區分真實的邊和 counterfacutal 的邊，那模型大概率能學到一些有意義的鏈路預測 feature，而不是 encode 一些虛假相關的 feature。

有了 counterfactual 邊之後（根據所選的相似函數，可以預處理出來），CFLP [70]先在真實的邊和 counterfactual 邊上進行訓練，然後結合一些類平衡 loss 和正則 loss 對鏈路預測進行 finetune。某種程度上，這有點像在生成 hard negative 樣本，加大正負樣本之間的分類難度。

CFLP 在 Cora/Citeseer/PubMed 三個數據集上大幅超過了普通 GNN 的鏈路預測效果，並且至今還在 OGB-DDI 的榜單 [71] 里處於前三的水平！

▲ Counterfactual邊（右）。來源：Zhao等人[69]

算法推理和圖論

今年算法推理領域有個重磅炸彈：DeepMind [72] 提出的 CLRS benchmark 數據集 [73]（註：CLRS 是《算法導論》的縮寫）。CLRS 涵蓋了 30 個經典算法（排序、搜索、最小生成樹、最短路、圖論、動態規劃等等），仿佛把 ICPC 的出題器交給了算法推理模型。做算法推理的同學再也不需要自己構造 toy 數據集了。

在 CLRS 數據集裡，每個樣本是一個 trajectory，涵蓋一個算法執行的輸入、輸出和所有中間結果。每個樣本作為一組點進行存儲（有些算法不涉及邊，因此不一定是圖），比如對 5 個元素的排序可以看作一個 5 個點上的操作。每個 Trajectory 由多個 probe 組成，每個 probe 是一個記錄當前算法執行狀態的一個元組，包含算法的階段、指針的位置、操作類型和操作的值。根據操作類型，我們決定是否輸出結果。下面這個例子展示了插入排序中的指針變化。

為了測試模型的 OOD 能力，訓練集和驗證集的 trajectory 均包含 16 點（即 16 個元素的排序問題），但是測試集裡的樣本包含 64 個點。有趣的是，簡單的 GNN 或者 MPNN 都能很好的擬合訓練集，但是在 OOD 上一塌糊塗。Pointer Graph Network [74] 則能在 OOD 上取得好一點的成績。可能這又是一個 GNN 不能泛化到更大圖上的例子吧，雖然目前大家還不知道怎麼解決這個。代碼已在 GitHub 上開源 [73]，並且能擴展支持更多的算法任務。

▲ CLRS中的trajectory。來源：Veličković等人 [72]

接下來是個更算法理論的工作，Sanmartín 等人 [75] 根據 Algebraic Path Problem（APP）發明了一些新的圖上的 metric。APP 是一個用半環 [56] 代數結構統一最短路，commute time distance 以及 minimax distance 的理論框架（NBFNet [58] 里用同樣的理論框架處理知識圖譜推理），跟抽象代數中的範疇論也有一定關係 [76]。舉個例子，最短路是用 min 和加法作為算子，正無窮大和 0 作為零元的一種 APP。

這篇論文中基於 APP 的框架提出了一類 log-norm 距離。log-norm 距離由兩個超參控制，在特定超參組合下，可以變成最短路、commute time distance 或者 minimax distance。一言蔽之，我們可以通過調節這兩超參，控制這個 metric 是更像最短路還是更像 commute time distance。儘管這篇論文沒有任何實驗，這篇論文的理論貢獻還是值得肯定的。如果你想啃範疇論的話，這篇文章值得一讀，對 GNN 的應用肯定有所啟發！

▲ Log-norm距離。來源：Sanmartín等人 [75]

最後我們提一下 Rossi 等人 [77] 結合圖論和博弈論的工作：Learning to Infer Structures of Network Games。即便你沒看過博弈論，我們猜你多半聽說過納什均衡 [78]，那是非合作博弈問題的一種解。這篇論文裡考慮了三類博弈遊戲：linear quadratic，linear influence 和 Barik-Honorio graphical。通常我們用效用函數來定義一個遊戲，但在這篇工作里，我們假設我們完全不知道效用函數。

我們把一張 N 個點的圖看作 N 個人的一個遊戲。在這個遊戲裡，每個人可以進行操作（可以把操作當作一種數值 feature，見下圖），而操作會影響跟他在圖中相鄰的人。任務是給定每個人的操作，重構整個圖的結構。這可以看作一種圖生成問題：給定點 feature ，預測一個鄰接矩陣。

對於每個遊戲（即每個圖），我們玩 K 次，每次遊戲是完全獨立的。因此，我們需要模型能夠對 K 個遊戲具有 permutation invariant 的特性，對每個遊戲內的點具有 permutation equivariant 的特性。論文提出了 NuGgeT（註：與炸雞塊同名）模型，用 Transformer 來 encode N 個人的 K 次遊戲得到 latent representation，用 MLP 對每一對 latent representation decode 得到邊的預測。整個模型對 K 次遊戲是 permutation invariant 的。

NuGgeT 在合成數據集和真實數據集上都有不錯的效果。你肯定覺得這種文章不會出現在 ICML，但它確實在那，讓我們開了眼界，也讓我們了解了很多有趣的概念。

▲ 來源：Rossi等人 [77]

知識圖譜推理

知識圖譜算是圖機器學習算法的老牌試驗田了，今年 ICML 也不乏有很多有趣的知識圖譜推理工作。一個明顯的趨勢是 GNN 和邏輯規則（GNN 某種程度上也是在學邏輯規則 [79]）在逐漸取代 embedding 算法（TransE [80]，ComplEx [81]，RotatE [82]，HAKE [83]）。今年有四篇基於 GNN 或邏輯規則的文章，兩篇 embedding 相關的文章。

首先我們來看 Yan 等人 [84] 提出的 cycle basis GNN [85]（CBGNN）。這篇論文觀察到了一個很有意思的點，在一個鏈式的邏輯規則中，邏輯表達式的兩端恰好構成了知識圖譜中的一個環結構。比如下面右圖展示了邏輯規則(X, part of Y) ∧ (X, lives in, Z) → (Y, located in Z)對應的環。換言之，可以用一個環的置信度，來衡量一個邏輯規則是否成立。於是推理的問題轉化為了學習環的 representation 的問題。

▲ 在左圖中，一共有紅藍綠三個環。來源：Yan等人 [84]

一個很有意思的性質是，環在模 2 加法和乘法下構成一個線性空間。在上面這個例子中，紅環和藍環相加，消去它們的公共邊，得到綠環。因此，我們不必對每個環計算 representation，而是只要學一部分基環的 representation 即可。論文通過多個最短路徑樹來生成儘量短小的環。有了環之後，我們創建一個環圖，其中每個點是原圖中的一個環，每條邊表示兩個環在原圖中有公共邊。然後我們在這個環圖上跑 GNN，即可得到原圖中環的 representation。

▲ CBGNN模型。來源：Yan等人

CBGNN 的輸入採用一個雙向 LSTM encode 環里所有 relation，因此它學得的 representation 是 inductive 的。CBGNN 在 inductive 版本的 FB15k-237、WN18RR 和 NELL-995 數據集上都取得了 SotA 的成績。

下一篇是 Das 和 Godbole 等人 [86] 提出的 CBR-SUBG [87]。CBR-SUBG 用 case-based reasoning（CBR）方法求解知識圖譜問答，其核心思想是從訓練集中檢索跟當前問題相似的樣本。我們知道這種基於檢索的方法在 OpenQA 中是非常常見的（EMDR [88]，RAG [89]，KELM [90]，Mention Memory LMs [91]），不過這還是我們第一次在圖上見到這種用法。

給定一個自然語言問題，CBR 首先用一個預訓練語言模型得到它的 representation，並以此檢索相似的 kNN 問題。由於所有檢索到的樣本都是訓練集中的，我們可以取得這些樣本對應的答案。對於每個樣本，我們抽取一個包含問題 entity 和答案 entity 的局部子圖。我們認為這個局部子圖涵蓋了預測答案所需的 pattern（儘管不一定完全準確）。

對於當前問題而言，我們沒法獲得答案 entity，就根據其 kNN 問題的局部子圖里出現的 relation 路徑類型，來抽取一個類似的局部子圖。對於這個子圖，CBR-SUBG 對每張圖跑一遍 GNN，然後對比當前圖的 entity representation 和 kNN 問題中的答案 representation，預測得到答案。

▲ Case-based reasoning示意圖。來源：Das和Godbole等人 [86]

今年有兩篇 neural-symbolic 類的推理工作。第一篇是 Glanois 等人 [92]的 hierarchical rule induction [93]（HRI）。HRI 改進了 inductive logic programming 上的 logic rule induction [94]（LRI）方法。Rule induction 是指從數據中學得一系列 rule，然後用類似 forward chaining 的算法推出更多 fact。

在 LRI 和 HRI 中，每個 fact P(s,o) 由一個謂詞 embedding 和一個概率表示。每個邏輯規則P(X,Y) ← P1(X,Z) ∧ P2(Z,Y)由其謂詞的 embedding 表示。我們想做的是不斷使用 rule，得出新的 fact。在每輪迭代中，我們根據謂詞的 embedding 對 rule 和 fact 進行 soft unification，看哪些 fact 的組合滿足哪些 rule。當我們找到一個 rule 和它對應的若干 fact 時，我們就能根據 rule 得到一個新的 fact，並把它加入到 fact 的集合中。soft unification 以及所有謂詞 embedding 都是根據觀測到的 fact，end-to-end 訓練得到的。

HRI 在 LRI 基礎上做了三個改進：1）用一個層次化先驗，在每輪迭代中學習不同的 rule；2）用 gumbel softmax 學 soft unification 中稀疏的選擇操作，從而具有可解釋性；3）證明了 HRI 可以表達的等效的 rule 的集合。

▲ HRI示意圖。來源：Glanois等人 [92]

第二篇 neural-symbolic 的工作是來自 Zhu 等人 [95] 的 GNN-QE（利益相關：本文作者的工作）。GNN-QE 結合 GNN 和 fuzzy set 來解決知識圖譜上的多跳邏輯問題。它既有 neural 的優點（比如強大的性能），又有 symbolic 的優點（比如可解釋性）。由於 GNN-QE 裡面有意思的東西太多了，我們打算之後單獨寫一篇文章來介紹 GNN-QE。朋友們，敬請期待！

最後我們想介紹的是 Kamigaito 和 Hayashi [96] 研究知識圖譜 embedding 中 negative sampling 的工作。自 RotatE [82] 開始，幾乎所有知識圖譜 embedding 都用 margin binary cross entropy 作為 loss，並在 loss 中對 negative sampling 進行歸一化。熟悉 word2vec [97] 的同學都知道，這其實和原版的 negative sampling 並不一樣。

這篇論文證明了對基於距離的模型（TransE [80]，RotatE [82]）而言，要想達到最優解，必須要使用帶歸一化的 negative sampling loss。margin 超參對基於距離的模型來說也是非常重要的。只有當 margin 時，embedding 訓練才有可能能達到最優解。這個和實驗中觀測到的現象是完全一致的。有了這篇文章的結論，我們再也不用愁如何在 embedding 方法中調 margin 了！

計算生物

計算生物的論文在今年 ICML 里也不少見。這裡讓我們來看看 molecular linking，protein binding，conformer generation 和 molecular property prediction 上都有哪些新工作。

Molecular linking 是設計 Proteolysis targeting chimera（PROTAC）[98] 類藥物的中重要的一個環節。對我們沒有生物背景的 GNN 研究者來說，這個任務相當於給定兩個分子，生成一個 linker 分子把兩個分子橋接成一個分子，同時儘可能保持兩個分子原有的性質（下圖是一個不錯的例子）

Huang 等人 [99] 提出了 3DLinker，基於 E(3)-equivariant 生成模型（VAE）逐步生成 linker 分子中每個原子和鍵的絕對坐標。通常，equivariant 模型是用來生成相對坐標或者相對距離矩陣的，但這篇論文裡用它來生成絕對的 (x, y, z) 坐標。為了使模型根據 equivarint（坐標）和 invariant（點 feature）輸入生成準確坐標，論文利用 Vector Neurons [100]（一種 ReLU 加正交投影的 trick）來確保 feature 的 equivariance。

Encoder 部分用一個 E(3)-equivariant 模型和 Vector Neurons 來 encode feature 和坐標，而 decoder 部分按以下步驟依次生成 linker 分子：

1. 在輸入分子上挑一個 anchor 原子，與 linker 分子相連；

2. 預測 linker 分子中一個原子的類型；

3. 預測 linker 分子中的鍵和絕對坐標；

4. 重複上述步驟直到預測的原子類型為停止符為止。

3DLinker 是目前第一個不需要知道 anchor 原子（之前的模型都需要給定 anchor 原子）就能預測 linker 分子準確 3D 坐標的模型，並且在實驗上取得了相當棒的效果。

▲ 3DLinker示意圖。來源：Huang等人 [99]

另一個重要的藥物發現任務是 protein-ligand binding，即預測小分子能和大蛋白的哪個區域結合。Stärk 和 Ganea等人 [101]（Ganea 大佬一路走好）提出了 EquiBind 模型。EquiBind 模型輸入一個 protein 和一個 RDKit 庫計算得到的 ligand 的 conformer，輸出 binding interaction 在 3D 空間中的位置。EquiBind 在 Youtube 上有視頻講解 [102]，MIT News [103] 對 EquiBind 也有一篇報道。我們非常推薦你仔細看一下這篇論文的內容！Equibind 相比商業軟件來說快了好幾個數量級，同時預測質量也非常高。

▲ EquiBind示意圖。來源：Stärk和Ganea等人 [101]

如果我們不知道 binding 用的分子長什麼樣的話，可以用 Liu 等人 [104] 提出的 GraphBP [105] 來預測這個分子。GraphBP 是一個 autoregressive 的分子生成方法。給定一個目標 protein site，GraphBP 用一個 3D GNN（SchNet [106]）來 encode protein 的結構，然後不斷生成原子類型和球面坐標，直到無法生成更多原子。當所有原子生成完後，論文使用 OpenBabel [107] 庫來計算得到所有鍵。

▲ GraphBP生成binding分子的過程。來源：Liu等人 [104]

在 molecular property prediction 任務上，Yu 和 Gao [108] 提出了一種簡單有效的改進分子 representation 的方式。具體來說，論文先從訓練集中抽取了一套 motif 詞典，並根據 TF-IDF [109] 對 motif 進行排序（NLP 亂入）。然後，每個分子可以看作若干 motif 的並集，整個數據集則可以看作一個分子和 motif 的 heterogeneous 圖：如果某個分子包含某個 motif，那它兩就有一條邊。如果兩個 motif 至少在一個分子中共用過邊，那它兩就有一條邊。我們用 TF-IDF 作為圖中邊上的 feature。

有了這個分子和 motif 的圖後，每個分子的 representatoin 就變成了一個正常分子 GNN 的到的 representation，外加這個 heterogeneous 圖上得到的分子的 representation。

這篇文章提出的 Heterogeneous Motif GNN [110]（HM-GNN）全方位超過數 k 環 motif 的 Graph Substructure Network [111]（GSN），甚至超過了頂尖的高階 message passing 模型 Cell Isomorphism Network [112]（CIN）。估計日後高階 GNN 的研究中，HM-GNN 是一個簡單而又強大的 baseline。

▲ HM-GNN中創建motif詞典的步驟。來源：Yu和Gao [108]

最後一篇是 Stärk 等人 [113] 在 2D 分子圖和 3D conformer 上 pretrain GNN 的 3D Infomax 算法。顧名思義，3D Infomax [114] 希望最大化 2D representation 和 3D representation 之間的互信息，這樣在測試的時候，即便是只輸入 2D graph，模型也能隱式地表達一些 3D 信息。

具體來說，3D Infomax 中用 Principal Neighborhood Aggregation [115]（PNA）模型來 encode 2D 輸入，用 Spherical Message Passing [116]（SMP）來 encode 3D 輸入。我們將 2D 和 3D representation 的 cosine 相似度輸入到 contrastive loss 中，最大化正樣本對之間的互信息，同時最小化負樣本對之間的互信息。預訓練好 2D 和 3D 模型後，我們就可以在下游任務上 finetune 2D 模型了，比如 QM9 數據集。

對了，如果你感興趣分子上的 pretrain GNN，也許可以看看 ICLR 2022 的 GraphMVP [117]。GraphMVP 也用 2D 和 3D 信息進行 pretrain。

▲ 3D Infomax先pretrain 2D和3D模型，然後在下有任務上finetune 2D模型。來源：Stärk等人[113]

圖的應用場景

GNN 為物理模擬和分子動力學帶來了很大的突破。一種常見的物理模擬任務是預測一個粒子系統中粒子隨時間的運動軌跡，其中點 feature 記錄粒子在歷史時間中的運動速度，邊 feature 表示粒子之間相對距離的變化。

今年，Rubanova 和 Sanchez-Gonzalez 等人 [118] 提出了 Constraint-based Graph Network Simulator（C-GNS），在物理模擬任務中顯示地加入標量約束條件。

粗略來講，在粒子過了 MPNN encoder 之後，我們把粒子的信息放到一個能求解約束條件的模型中。求解模型本身是一個可微函數（文章中實際是個 5 步 gradient descent），換言之我們可以通過求解模型進行反傳。C-GNS 本質上屬於一種 deep implicit layer [119]，這類方法最近在 GNN 中越來越常見了。

物理模擬最 fancy 的部分當然是可視化了！來看看作者們提供的 demo [120] 吧。

▲ Constraint-based Graph Network Simulator示意圖。來源：Rubanova和Sanchez-Gonzalez等人 [118]

其他值得看一看的應用場景還有：

交通預測：Lan 和 Ma 等人 [121] 提出了 Dynamic Spatial-Temporal Aware Graph Neural Network [122]（DSTA-GNN）。繼去年 DeepMind 在 Google Map 中用 GNN 來預測到達時間 [123] 後，這篇文章在加州道路數據上預測交通流量。

神經網絡剪枝：Yu 等人 [124] 提出了 GNN-RL [125] 來逐步刪減深度網絡中的權重，直到達到給定的 FLOPs。這篇論文把整個神經網絡的計算圖當做一個層次化的圖，並用層次化的 GNN 方法 encode 這張圖。在 GNN 得到的 representation 的基礎上，論文使用一個 RL agent 來決定刪減哪部分權重。

排序問題：He 等人 [126] 研究了一個有趣的問題：給定一個兩兩交互的矩陣（例如足球聯賽中球隊之間的淨勝球數），求解點（球隊）的排名。換句話說，這相當於知道了循環賽的比分後，預測哪支球隊是冠軍。論文提出了 GNNRank 來 encode 兩兩交互的矩陣，並計算對應圖 Laplacian 的 Fiedler vector [127]。

非常感謝你能讀到這裡，看完了滿滿乾貨！😅

幾個月後讓我們 NeurIPS 和 LoG 再見！

參考文獻

[1] https://icml.cc/Conferences/2022/Schedule?type=Workshop

[2] https://arxiv.org/abs/2006.11239

[3] https://arxiv.org/abs/2112.10741

[4] https://openai.com/dall-e-2/

[5] https://gweb-research-imagen.appspot.com/paper.pdf

[6] https://arxiv.org/pdf/2205.09853.pdf

[7] https://arxiv.org/pdf/2205.14217.pdf

[8] https://arxiv.org/pdf/2205.09991.pdf

[9] https://arxiv.org/pdf/2203.17003.pdf

[10] https://arxiv.org/pdf/2102.09844.pdf

[11] https://github.com/ehoogeboom/e3_diffusion_for_molecules

[12] https://www.notion.so/ICML-2022-40a7967f468f41959756ffbe15306fae

[13] https://twitter.com/emiel_hoogeboom/status/1509838163375706112

[14] https://arxiv.org/pdf/2202.02514.pdf

[15] https://openreview.net/pdf?id=PxTIG12RRHS

[16] https://en.wikipedia.org/wiki/Wiener_process

[17] https://openreview.net/pdf?id=JHcqXGaqiGn

[18] https://en.wikipedia.org/wiki/Langevin_dynamics

[19] https://en.wikipedia.org/wiki/Runge%E2%80%93Kutta_methods

[20] https://github.com/harryjo97/GDSS

[21] https://arxiv.org/pdf/2204.01613.pdf

[22] https://github.com/KarolisMart/SPECTRE

[23] https://en.wikipedia.org/wiki/Stiefel_manifold

[24] https://papers.nips.cc/paper/2019/file/bb04af0f7ecaee4aae62035497da1387-Paper.pdf

[25] https://arxiv.org/pdf/2202.03036.pdf

[26] https://arxiv.org/pdf/2107.07999.pdf

[27] https://arxiv.org/abs/2009.14794

[28] https://proceedings.mlr.press/v162/papp22a/papp22a.pdf

[29] https://towardsdatascience.com/using-subgraphs-for-more-expressive-gnns-8d06418d5ab

[30] https://proceedings.mlr.press/v162/huang22l/huang22l.pdf

[31] https://openreview.net/forum?id=BJluy2RcFm

[32] https://github.com/zhongyu1998/PG-GNN

[33] https://proceedings.mlr.press/v162/cai22b/cai22b.pdf

[34] https://arxiv.org/abs/1812.09902

[35] https://en.wikipedia.org/wiki/Graphon

[36] https://twitter.com/ChenCaiUCSD/status/1550109192803045376

[37] https://proceedings.mlr.press/v162/gao22e/gao22e.pdf

[38] https://arxiv.org/abs/2006.10637

[39] https://openreview.net/forum?id=rJeW1yHYwH

[40] https://proceedings.mlr.press/v162/chen22o/chen22o.pdf

[41] https://github.com/chens5/WL-distance

[42] https://arxiv.org/abs/1808.04337

[43] https://tenor.com/view/predator-arnold-schwarzenegger-hand-shake-arms-gif-3468629

[44] https://proceedings.mlr.press/v162/wang22am/wang22am.pdf

[45] https://en.wikipedia.org/wiki/Jacobi_polynomials

[46] https://proceedings.neurips.cc/paper/2016/file/04df4d434d481c5bb723be1b6df1ee65-Paper.pdf

[47] https://en.wikipedia.org/wiki/Chebyshev_polynomials

[48] https://proceedings.mlr.press/v162/li22h/li22h.pdf

[49] https://proceedings.mlr.press/v162/yang22n/yang22n.pdf

[50] https://proceedings.mlr.press/v162/xiong22a/xiong22a.pdf

[51] https://proceedings.mlr.press/v162/miao22a/miao22a.pdf

[52] https://arxiv.org/pdf/2006.03589.pdf

[53] https://arxiv.org/pdf/1903.03894.pdf

[54] https://arxiv.org/pdf/2011.04573.pdf

[55] https://arxiv.org/pdf/2010.05788.pdf

[56] https://en.wikipedia.org/wiki/Semiring

[57] https://github.com/xiong-ping/sgnn_lrp_via_mp

[58] https://papers.nips.cc/paper/2021/file/f6a673f09493afcd8b129a0bcf1cd5bc-Paper.pdf

[59] https://github.com/Graph-COM/GSAT

[60] https://arxiv.org/pdf/2202.07179.pdf

[61] https://github.com/facebookresearch/mixup-cifar10

[62] https://proceedings.mlr.press/v162/zhang22f/zhang22f.pdf

[63] https://proceedings.mlr.press/v162/sohn22a/sohn22a.pdf

[64] https://arxiv.org/pdf/2109.03856.pdf

[65] https://github.com/SongtaoLiu0823/LAGNN

[66] https://arxiv.org/pdf/2206.07161.pdf

[67] https://papers.nips.cc/paper/2020/file/f3ada80d5c4ee70142b17b8192b2958e-Paper.pdf

[68] https://arxiv.org/pdf/2102.06514.pdf

[69] https://arxiv.org/pdf/2106.02172.pdf

[70] https://github.com/DM2-ND/CFLP

[71] https://ogb.stanford.edu/docs/leader_linkprop/

[72] https://arxiv.org/pdf/2205.15659.pdf

[73] https://github.com/deepmind/clrs

[74] https://proceedings.neurips.cc//paper/2020/file/176bf6219855a6eb1f3a30903e34b6fb-Paper.pdf

[75] https://proceedings.mlr.press/v162/sanmarti-n22a/sanmarti-n22a.pdf

[76] https://arxiv.org/pdf/2005.06682.pdf

[77] https://arxiv.org/pdf/2206.08119.pdf

[78] https://en.wikipedia.org/wiki/Nash_equilibrium

[79] https://openreview.net/pdf?id=r1lZ7AEKvB

[80] https://proceedings.neurips.cc/paper/2013/file/1cecc7a77928ca8133fa24680a88d2f9-Paper.pdf

[81] http://proceedings.mlr.press/v48/trouillon16.pdf

[82] https://arxiv.org/pdf/1902.10197.pdf

[83] https://ojs.aaai.org/index.php/AAAI/article/view/5701/5557

[84] https://proceedings.mlr.press/v162/yan22a/yan22a.pdf

[85] https://github.com/pkuyzy/CBGNN

[86] https://proceedings.mlr.press/v162/das22a/das22a.pdf

[87] https://github.com/rajarshd/CBR-SUBG

[88] https://arxiv.org/pdf/2106.05346.pdf

[89] https://arxiv.org/abs/2005.11401

[90] https://arxiv.org/pdf/2010.12688.pdf

[91] https://openreview.net/forum?id=OY1A8ejQgEX

[92] https://proceedings.mlr.press/v162/glanois22a/glanois22a.pdf

[93] https://github.com/claireaoi/hierarchical-rule-induction

[94] https://arxiv.org/pdf/1809.02193.pdf

[95] https://proceedings.mlr.press/v162/zhu22c/zhu22c.pdf

[96] https://proceedings.mlr.press/v162/kamigaito22a/kamigaito22a.pdf

[97] https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf

[98] https://en.wikipedia.org/wiki/Proteolysis_targeting_chimera

[99] https://arxiv.org/pdf/2205.07309.pdf

[100] https://arxiv.org/pdf/2104.12229.pdf

[101] https://arxiv.org/pdf/2202.05146.pdf

[102] https://www.youtube.com/watch?v=706KjyR-wyQ&list=PLoVkjhDgBOt11Q3wu8lr6fwWHn5Vh3cHJ&index=15

[103] https://news.mit.edu/2022/ai-model-finds-potentially-life-saving-drug-molecules-thousand-times-faster-0712

[104] https://proceedings.mlr.press/v162/liu22m/liu22m.pdf

[105] https://github.com/divelab/GraphBP

[106] https://proceedings.neurips.cc/paper/2017/file/303ed4c69846ab36c2904d3ba8573050-Paper.pdf

[107] https://jcheminf.biomedcentral.com/articles/10.1186/1758-2946-3-33

[108] https://proceedings.mlr.press/v162/yu22a/yu22a.pdf

[109] https://en.wikipedia.org/wiki/Tf%E2%80%93idf

[110] https://github.com/ZhaoningYu1996/HM-GNN

[111] https://arxiv.org/pdf/2006.09252.pdf

[112] https://arxiv.org/pdf/2106.12575.pdf

[113] https://proceedings.mlr.press/v162/stark22a/stark22a.pdf

[114] https://github.com/HannesStark/3DInfomax

[115] https://arxiv.org/abs/2004.05718

[116] https://openreview.net/forum?id=givsRXsOt9r

[117] https://openreview.net/forum?id=xQUe1pOKPam

[118] https://proceedings.mlr.press/v162/rubanova22a/rubanova22a.pdf

[119] http://implicit-layers-tutorial.org/

[120] https://sites.google.com/view/constraint-based-simulator

[121] https://proceedings.mlr.press/v162/lan22a/lan22a.pdf

[122] https://github.com/SYLan2019/DSTAGNN

[123] https://www.deepmind.com/publications/eta-prediction-with-graph-neural-networks-in-google-maps

[124] https://proceedings.mlr.press/v162/yu22e/yu22e.pdf

[125] https://github.com/yusx-swapp/GNN-RL-Model-Compression

[126] https://arxiv.org/pdf/2202.00211.pdf

[127] https://en.wikipedia.org/wiki/Algebraic_connectivity

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平台上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平台已發表或待發表的文章，請明確標註

• 稿件建議以markdown格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬投稿通道：

• 投稿郵箱：hr@paperweekly.site

• 來稿請備註即時聯繫方式（微信），以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

Zhaocheng Zhu

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

全站分類：不設分類
個人分類：不設分類
此分類上一篇： Neets新報 - 作為內褲，我真的不能再薄了......
此分類下一篇： PaperWeekly - 文末送書 | 神經機器翻譯「百科全書」：基礎、原理、實踐與進階
上一篇： Neets新報 - 作為內褲，我真的不能再薄了......
下一篇： PaperWeekly - 文末送書 | 神經機器翻譯「百科全書」：基礎、原理、實踐與進階

鑽石舞台

鑽石鑽石亮晶晶

PaperWeekly - 一文梳理ICML 2022中圖機器學習熱點和趨勢

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

PaperWeekly - ​一文梳理ICML 2022中圖機器學習熱點和趨勢

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結

PaperWeekly - 一文梳理ICML 2022中圖機器學習熱點和趨勢