論文標題:
GraphENS: Neighbor-Aware Ego Network Synthesis for Class-Imbalanced Node Classification
https://openreview.net/forum?id=MXEl7i-iru
這是一篇針對類別不平衡問題的數據生成文章。
Abstract
在不平衡分類任務中,由於 GNN 中的消息傳遞,相比於過擬合少類節點而言,GNN 會對少類節點的鄰居過擬合更加嚴重(本文的新觀點)。
展示並說明了 GNN 會對少類節點的鄰居出現嚴重的過擬合,這種現象稱為 neighbor memorization。少類節點越少,這種現象就越嚴重。
本節作者展示了 Neighbor Memorization,通過實驗說明了 GNN 對鄰居的過擬合要比對少類節點本身的過擬合更嚴重。
1.1 Overfitting to minor classes
作者首先研究了對少類節點本身的過擬合問題,在數據集 PubMed 上構造了不平衡率為 100 的數據(多類/少類 = 100),採用兩層 256-dim 的 GraphSAGE 訓練了 2000 個 epoch,得到了以下結果:
實線是少類樣本的 Acc,虛線是整體的 Acc。對比 Train 和 Test 可以看出,現有針對不平衡的方法對少樣本有嚴重的過擬合問題,而 GraphENS 對此有緩解。
下一節作者將驗證這到底是因為 GNN 對少類節點本身的特徵過擬合,還是對其鄰居結點過擬合。
1.2 Neighbor memorization problem
作者在此採用了兩組置換實驗對比驗證。
1.2.1 Node replacing experiment
這個實驗相當於把不同的特徵換到相同的鄰居環境下,看看在鄰居結構不變的情況下,改變中心節點的特徵對分類效果的影響。
1.2.2 Node replacing experiment
GraphENS
這一步是從兩個母節點的鄰居中,根據 ego network 的相似性為鄰居結點生成一個採樣概率,並通過採樣確定 的鄰居節點。ego network 就是指節點和一階鄰居組成的小網絡。
隨後,根據兩個節點的 KL 散度衡量兩個 ego network 的相似度:
鄰居節點的採樣數量由圖中節點度數的分布決定(比如統計均值),以保證節點度數的穩定。
2.2 Saliency-based Node Mixing本節作者構建了一個基於特徵顯著性的節點混合策略,用於生成 。
Node mixup

Whole Algorithm
更多閱讀


#投 稿通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註
• 稿件建議以markdown格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬投稿通道:
• 投稿郵箱:hr@paperweekly.site
• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者
• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按添加PaperWeekly小編