close

©作者 | Dream
單位| 浙江大學
研究方向 | 圖表示學習

本文介紹一下我們自己的工作,該論文是一篇圖自監督學習的工作,被 IJCAI 2022 接收。


論文標題:
RoSA: A Robust Self-Aligned Framework for Node-Node Graph Contrastive Learning

論文鏈接:

https://arxiv.org/abs/2204.13846

代碼鏈接:

https://github.com/ZhuYun97/RoSA

近些年來,圖自監督學習進展非常快,從 2020 年該方向的論文就開始井噴式增長。


背景介紹

在介紹該論文前,我們先了解一些名詞 node-node contrasting mode(i.e. local-local), node-graph(subgraph)contrasting level(i.e. local-global), graph(subgraph)-graph(subgraph)contrasting level(i.e. global-global)[1][2],以及 aligned 和 non-aligned views。
通過圖一我們可以了解到不同 level 對比的方式,通過 GNN encoder 之後我們得到 node-leval representation ,然後通過 readout 函數 得到 graph-level representation 。node-level representations 之間進行對比稱為 node-node contrasting level (i.e. local-local),node-level representation 和 graph-level representation 進行對比稱為 node-graph contrasting level (i.e. local-global),global-level representations 之間進行對比稱為 graph-graph contrasting level (i.e. global-global)。Table 1 是現有的一些方法的分類。

▲ 圖1 [1]:不同level對比

▲Table 1:圖對比學習方法分類

不同的對比模式介紹完了,下面介紹一下 aligned views 和 non-aligned views(這一概念主要針對 node-node contrasting mode)。aligned views 指的是 positive views 中節點 id一一對應(e.g. view1 [1,2,3],view2 [1,2,3]),non-aligned views 指兩個 view 擁有不同的節點集合(e.g. view1 [1,2,3],view2 [4,1,3]),甚至每個 view 的節點數也可以不一樣,如圖2。[1]
通過大量實驗發現在節點分類數據集上,node-node contrasting 的方法效果是更好的(與下游任務更匹配)。而現有的 node-node contrasting 方法都是在 aligned views 情境下進行的,這可能會阻礙採樣的靈活性和多樣性,限制了對比學習的表現能力。

此外,在某些情況下 aligned views 是不可用的,比如,在動態圖中,隨着時間的推移,節點可能出現/消失,以及如果使用隨機遊走的方式進行採樣,得到的兩個視圖也是 non-aligned 的。與 aligned node-node contrasting 相比,non-aligned 場景下採樣方式可以更靈活(可以採樣到不同的節點和關係),有助於模型學習更具代表性和魯棒性的特徵。

▲ 圖2:黑色加粗的為中心節點;在經過 encode 之後,為了得到 graph-level 的表徵還會使用 readout 函數,這一操作會丟失較多信息。N-N 代表 node-node contrasting mode,N-G 代表 node-graph contrasting mode,G-G 代表 graph-graph contrasting mode。

然而,應用 non-aligned node-node contrasting 將面臨三個主要的挑戰。首先,如何設計採樣方法,可以生成 non-aligned views,同時保持語義的一致性?第二,如何對比兩個 non-aligned views(兩個 views 中的節點的數量和節點之間的對應關係不一致)?第三,如何在提高無監督圖對比學習模型性能的同時增強模型的魯棒性?現有的方法都沒有解決這些問題。為解決以上問題,在這篇論文中,我們提出了一個魯棒的自對齊的 node-node level 圖對比學習框架(RoSA)。


首先,我們利用帶重啟的隨機遊走針對每個中心節點進行採樣(采自同一個節點的子圖視為正樣本對,否則為負樣本)。對於一對視圖(views),我們利用 g-EMD 計算將一個視圖的分布轉換為另一個視圖的最小成本,它可以隱式地對齊不同的視圖並捕獲分布的變化(正樣本對的分布變化會儘可能小)。第三,我們引入無監督對抗訓練(針對節點特徵),以增加樣本的多樣性並增強我們的模型的魯棒性。據我們所知,這是第一個填補了 non-aligned node-node 圖對比學習空缺的工作。


貢獻

我們提出了一個魯棒的自對齊圖對比學習框架,用於 node-node level 圖表示學習。該工作是第一個致力於解決 non-aligned node-node level 圖對比學習問題的工作。
為了解決非對齊問題,我們引入了一種新的基於圖的最優傳輸算法 g-EMD,該算法不需要顯式的節點對應,可以充分利用圖的拓撲信息和屬性信息進行非對齊節點節點對比。此外,為了彌補 non-aligned 採樣可能造成的信息損失,我們提出了一種無監督圖對抗訓練,以提高採樣的多樣性,增強模型的魯棒性。
和現有方法相比,我們的方法在大量數據集上都達到了 SOTA。

方法
算法流程如下所示:

▲ 偽代碼

3.1 符號介紹

一個圖可以表示為 ,其中 表示 N 個節點的表徵(d 維),鄰接矩陣表示為 。針對子圖採樣,每一個節點 ,我們會進行兩次隨機遊走,得到對應子圖 (通過額外的增強可以得到 ),它們視為正樣本對。

▲圖3:模型框架

3.2 非對齊子圖採樣

針對正樣本對,我需要得到語義相似的兩個節點集合,基於這個假設,我們利用帶重啟的隨機遊走針對每個中心節點採樣得到 unaligned views,之後可以附加一些額外的增強方式(e.g. node masking, edge dropping[3])。當然我們也可以選取其他的一些採樣方式。


3.3 g-EMD: A Self-aligned Contrastive Objective

之前計算對比損失的時候通常使用 cosine similarity 作為節點對相關性的度量函數,默認節點是一一對應的,但是在 unaligned views 的情況下,我們需要重新定義一個能夠衡量兩個 unaligned views 的對比損失,對此我們結合 earth mover's distance(EMD)提出一個針對圖上用來衡量 unaligned views 相似度的方法 g-EMD,這部分詳細內容參見原論文。


最後的 loss 可以表示為:


其中 為 g-EMD-based similarity。

3.4 Unsupervised Adversarial Training

對抗訓練可以認為是一種增強方式,它可以增加模型的魯棒性。[4]通過實驗證明了有監督情況下在節點特徵上進行對抗訓練可以進一步提升模型精度,我們將其引入到圖對比學習中,公式如下:


結合了無監督圖對抗訓練,我們可以實現更魯棒的對齊任務,在 max-process 中,能量期望在不同類別的節點之間傳遞,而 min-process 可以彌補這種糟糕的情況,使 alignment 更加魯棒。這樣,對抗訓練既增加了樣本的多樣性,有進一步提高了模型的魯棒性。


實驗

我們在 10+5 個節點分類數據集上進行了實驗(包含同配圖,異配圖以及動態圖,以及不同 setting 的實驗:transductive setting 和 inductive setting),在無監督訓練下,我們的方法均達到了 SOTA。
4.1 Transductive setting
同配圖節點分類

▲ Table 2: Summary of classification accuracy of node classificationtasks on homophilous graphs. The second column representsthe contrasting mode of methods, N-G stands for node-graph level,and N-N stands for node-node level.

除了上面四個比較經典的引文數據集,我們還在一些相對更大的數據集上進行了實驗(這部分實驗由於篇幅限制,放在了 Appendix 中),可以發現,我們的方法在這些數據集上都達到了 SOTA。

▲ Table 3: (由於篇幅限制,這部分實驗在 Appendix 中)

異配圖節點分類

▲ Table 3: Heterophilous node classification using GCN (left) andMLP (right).

4.2 Inductive setting

▲Table 4: Result for inductive learning on large-scale datasets.

4.3 動態圖

▲Table 5: Node classification using GraphSAGE on dynamic graphs.

4.4 消融實驗

▲圖4:消融實驗


總結

在本文中,我們提出了一個魯棒的 node-node level 圖對比學習的自對齊框架,其中我們設計並利用基於圖的 EMD(g-EMD)作為對比損失中的相似性度量,以避免對比視圖之間的顯式對齊。其次,我們將無監督對抗訓練引入到 graph domain,進一步提高了模型的魯棒性。


在同質、非同質和動態圖數據集上的大量實驗結果表明,我們的模型可以有效地應用於非對齊情況,並優於其他競爭對手。此外,我們在本工作中採用了簡單帶重啟的隨機遊走作為子採樣技術,如果在未來的工作中配備更強大的採樣方法,RoSA 可能會取得更好的性能。


參考文獻


[1] abZhu Y, Xu Y, Liu Q, et al. An Empirical Study of Graph Contrastive Learning[C]//Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 2021.https://openreview.net/forum?id=UuUbIYnHKO

[2] Wu L, Lin H, Gao Z, et al. Self-supervised on graphs: Contrastive, generative, or predictive[J]. arXiv e-prints, 2021: arXiv: 2105.07342.https://arxiv.org/abs/2105.07342

[3] Zhu Y, Xu Y, Yu F, et al. Deep graph contrastive representation learning[J]. arXiv preprint arXiv:2006.04131, 2020.https://arxiv.org/abs/2006.04131

[4] Kong K, Li G, Ding M, et al. Flag: Adversarial data augmentation for graph neural networks[J]. arXiv preprint arXiv:2010.09891, 2020.https://arxiv.org/abs/2010.09891



更多閱讀




#投 稿通 道#

讓你的文字被更多人看到




如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝稿件基本要求:

• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註

• 稿件建議以markdown格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬投稿通道:

• 投稿郵箱:hr@paperweekly.site

• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·



arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()