close

©作者 |陳景岩
單位 |南京大學
研究方向 |圖神經網絡

論文標題:

GraphENS: Neighbor-Aware Ego Network Synthesis for Class-Imbalanced Node Classification

論文鏈接:

https://openreview.net/forum?id=MXEl7i-iru


這是一篇針對類別不平衡問題的數據生成文章。

Abstract

在不平衡分類任務中,由於 GNN 中的消息傳遞,相比於過擬合少類節點而言,GNN 會對少類節點的鄰居過擬合更加嚴重(本文的新觀點)。

針對上述問題作者提出了一種數據生成的方法 GraphENS,其基本步驟是選擇一個少類節點 ,和一個其他類的節點 ,根據這兩個節點生成一個 節點。同時,根據兩個母節點的 ego network 之間的相似性為 節點設計一種鄰居採樣方法。

本文的主要貢獻有:

展示並說明了 GNN 會對少類節點的鄰居出現嚴重的過擬合,這種現象稱為 neighbor memorization。少類節點越少,這種現象就越嚴重。

根據兩個母節點的 ego network 為新節點生成鄰居,緩解了 neighbor memorization。此外在 的生成過程中,根據節點特徵的顯著性防止了有害的特徵注入到 中。
在不平衡的數據集上做實驗,效果超過了許多 baselines。

Neighbor Memorization

本節作者展示了 Neighbor Memorization,通過實驗說明了 GNN 對鄰居的過擬合要比對少類節點本身的過擬合更嚴重。


1.1 Overfitting to minor classes

作者首先研究了對少類節點本身的過擬合問題,在數據集 PubMed 上構造了不平衡率為 100 的數據(多類/少類 = 100),採用兩層 256-dim 的 GraphSAGE 訓練了 2000 個 epoch,得到了以下結果:

實線是少類樣本的 Acc,虛線是整體的 Acc。對比 Train 和 Test 可以看出,現有針對不平衡的方法對少樣本有嚴重的過擬合問題,而 GraphENS 對此有緩解。

下一節作者將驗證這到底是因為 GNN 對少類節點本身的特徵過擬合,還是對其鄰居結點過擬合。


1.2 Neighbor memorization problem

作者在此採用了兩組置換實驗對比驗證。


1.2.1 Node replacing experiment

▲ Seen節點來自訓練集,Unseen節點來自測試集

作者首先在訓練集中選擇一個替換節點 ,再分別在訓練集和測試集中採樣節點 、、 作為提供特徵的節點。將二者的特徵分別換給 ,並統計其分類準確度。 提供的特徵作為對照組。

這個實驗相當於把不同的特徵換到相同的鄰居環境下,看看在鄰居結構不變的情況下,改變中心節點的特徵對分類效果的影響。


1.2.2 Node replacing experiment

這裡的採樣和 1 中類似,但這裡是把一個節點分別換到了兩個鄰居結構中,再統計節點的分類效果。換到 的鄰居中作為對照組。

這個實驗相當於把一個節點換到不同的鄰居環境下,看在節點本身特徵不變的情況下,改變鄰居環境對分類效果的影響。

上述兩個實驗結果為:

▲ RW:re-weight,OS:over sampling

對比兩張圖相同位置下的紅色柱可以發現,更換鄰居環境後,分類效果比更換節點特徵差很多。由此作者論證了 neighbor memorization 對分類效果的影響。

GraphENS

GraohENS 包括兩部分:
選擇兩個母節點 、,用於後續的節點 的生成和鄰居選擇;
根據兩個母節點的 ego network 相似性,為 生成鄰居採樣概率,並進行鄰居採樣;
根據節點的特徵顯著性,為 進行特徵生成。
2.1 Neighbor Sampling
這一步是從兩個母節點的鄰居中,根據 ego network 的相似性為鄰居結點生成一個採樣概率,並通過採樣確定 的鄰居節點。ego network 就是指節點和一階鄰居組成的小網絡。
首先,構造兩個母節點的 Logits:

隨後,根據兩個節點的 KL 散度衡量兩個 ego network 的相似度:



最後為每個節點生成一個採樣概率:


這裡的注意到 ,因此 。也就是 的鄰居節點不會太靠近 。同時 隨 KL 散度增大而增大,也就是如果 和 的鄰居差距越大,採樣的鄰居越靠近 。

鄰居節點的採樣數量由圖中節點度數的分布決定(比如統計均值),以保證節點度數的穩定。


2.2 Saliency-based Node Mixing本節作者構建了一個基於特徵顯著性的節點混合策略,用於生成 。
Feature Saliency

在此,作者通過損失函數的反向傳播確定特徵的顯著性,具體而言對於節點 v,其第 i 維特徵的顯著性為:


一個直觀的解釋是,損失對 X 的偏導刻畫了變量的輕微變化對損失的影響大小,因此如果數值越大,則認為該特徵越具有顯著性。節點 v 的顯著性向量為:。

Node mixup

其中 ,是一個超參數。,是一個 mask vector,用於抹去 里 K% 的特徵(設置為 0)。其中 k 是超參數:

哪些位置被抹去,由一個概率分布 決定。按照這個概率採樣,將 K% 的位置抹去為 0。
注意這裡,節點混合的出發點是,我們想生成靠近少樣本的數據點(解決不平衡),同時添加適當的噪音。因此如果 和 差距較大,應該多保留 的特徵。同時對於 里較為顯著的特徵(較強的噪音),也應該抹去(越顯著,其被採樣的概率越大)。

Experiments



w/o PS:把鄰居相似度用隨機值代替
w/o SM:去掉節點特徵顯著性,置
w/o SM,NS:去掉節點特徵顯著性,同時把 的鄰居置為和 相同
接下來作者對比了 來自於所有類,以及只來自於一類的實驗效果:


實驗表明從所有類中隨機選擇更有利於模型效果。

類別的選擇依據概率分布 ,選擇一類後,等概率從類別中隨機選擇一個節點作為 。

Whole Algorithm


更多閱讀



#投 稿通 道#

讓你的文字被更多人看到




如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝稿件基本要求:

• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註

• 稿件建議以markdown格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬投稿通道:

• 投稿郵箱:hr@paperweekly.site

• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按添加PaperWeekly小編


🔍

現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
·



arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()