©PaperWeekly 原創 · 作者 | 張成蹊
單位 | Freewheel機器學習工程師
關鍵詞:聯邦學習(Federated Learning),對比學習(Contrastive Learning),知識蒸餾(Knowledge Distillation),無監督學習(Unsupervised Learning)。

相關背景
聯邦學習假設數據分散在不同的客戶端中,且不能與中央服務器共享;截止目前,已經有很多有監督聯邦學習用在下游任務的相關研究,如目標檢測、圖像分割、人員重識別等,但對於無監督聯邦學習的需求也在逐步增加,以應對一些本地客戶端缺失數據的場景。其中比較具有挑戰性的研究點為:
數據在不同客戶端是離散且異構的,不滿足數據獨立同分布的條件,所以聯邦學習算法必須考慮到獨立客戶端與全局數據分布不同時的有偏情況;
在數據有偏到一定程度,客戶端可能只擁有較少的數據,此時需要引入無監督/半監督的聯邦學習方法,使得每一個客戶端都從全局模型中獲益,達到較好利用本地數據的目的。
聯邦學習的整體流程如下圖所示:
Local Update:每個client各自學習自己的樣本表示,獲得各自獨立的本地參數模型;
Global aggregation:中心服務器對所有 client 上傳的模型進行聚合,最簡單的方式是(假設本地模型都是同構的)根據 client 各自擁有樣本數量的占比進行加權平均;
Global model download:每個 client 將 global model 各自下載到本地。
提出了無監督的聯邦學習算法 FedX,使用了局部與全局兩個階段的蒸餾來學習不同客戶端的數據表示;兩階段的知識蒸餾能夠發現有意義的本地數據向量表示,同時通過全局的知識蒸餾消除不同客戶端之間的偏差;
FedX 是一個可以被用於現有聯邦學習擴展的算法,提升現有聯邦學習算法的性能(1.58-5.52pp),同時對不同客戶端的數據嚴格保密,不(像部分現有的無監督聯邦學習算法一樣)直接在不同客戶端之間進行數據的共享;
以 SimCLR 為例,傳統對比學習的損失函數如下所示:
作為一個獨立的本地客戶端,其學習的目標是基於自己擁有的本地數據,獲得數據有意義的向量表示。
這兩個分布代表了一組相似的正樣本關於其它負樣本的相對分布情況。容易發現,如果模型真的能辨認出增強前後的樣本歸屬於同一個樣本(或者標籤),那麼,除了對比學習本身設計的學習目標 —— 這兩個樣本間的相似度高於同批次中其他負樣本的相似度——以外,這兩個樣本對於某個隨機的負樣本的相似度分布也應該相似。
那麼,對於另一個隨機採樣的樣本(比如貓的某個視角),正樣本的向量和隨機採樣樣本的向量的相似度,預期上應該是低於正樣本的向量和另一張狗的隨機採樣樣本的相似度的;而作為正樣本的增強樣本,它對於不同的隨機樣本,也應該具有這樣相似的特性。
2.2 全局損失
除了局部的損失函數外,作者也引入了全局的損失函數。其出發點為:局部模型不但要從自己獨立的樣本中來學習分布,自然也要從全局模型中學習信息,所以在全局上提出了與局部損失類似的全局損失函數。唯一的差別在於,全局損失函數的關係損失函數中,隨機採樣的負樣本的表示向量從全局模型中取得(從作者的代碼中可以發現,此時全局模型的參數是凍結的,只用於提供特徵向量)。
全局模型主要目的是解決局部數據和全局數據的分布不一致所造成的的偏差,從而避免局部模型從上述過程中往局部最優收斂。

作者也進行了一系列的有效性實驗,以證明 FedX 在不同場景,不同設定下的有效性。
值得注意的是,在論文的最後,作者也提出了將 FedX 擴展到半監督學習的場景中的設定,在這個場景下,首先用未標註數據對模型進行參數的初始化,然後再在模型上層添加一個全連接層,使用標註數據再額外訓練一定的輪次做微調。發現 FedX 在半監督的算法場景下也能帶來一定的提升,進一步證明了 FedX 不僅能夠用於無監督場景下的聯邦學習,也能用於少數據場景下的半監督學習。
更多閱讀



#投 稿通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註
• 稿件建議以markdown格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬投稿通道:
• 投稿郵箱:hr@paperweekly.site
• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者
• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按添加PaperWeekly小編
