close

在科學研究中,從方法論上來講,都應「先見森林,再見樹木」。當前,人工智能學術研究方興未艾,技術迅猛發展,可謂萬木爭榮,日新月異。對於AI從業者來說,在廣袤的知識森林中,系統梳理脈絡,才能更好地把握趨勢。為此,我們精選國內外優秀的綜述文章,開闢「綜述專欄」,敬請關注。

來源:中國人工智能學會
文 / 張曉宇,李澤坤,吳書
摘 要
預測分析是網絡應用中的一項重要任務,在推薦系統和在線廣告等應用上發揮着巨大作用。以往的模型大多忽略特徵中存在的潛在結構性,從而並不能高效且顯式的建模特徵交互。本文提出將特徵數據建模成圖的結構,並設計了神經網絡模型來顯式高效的建模特徵交互。
關鍵字
預測分析;特徵交互建模;圖結構
預測分析是機器學習和數據挖掘的一項基本任務。給定特徵作為輸入,目標是推斷出預測目標的函數(如回歸的實值、分類的分類標籤等),對於許多網絡應用,如在線廣告和推薦系統尤為關鍵。區別於圖像和音頻中自然可以找到的連續特徵,網絡應用的特徵大多是稀疏和分類的,在對這些特徵進行預測分析時,必須考慮到它們之間的交互作用。例如,預測用戶對電影的偏好,給定五個分類變量的特徵:①語言 = { 英語,中文,日語,…};②類型={ 動作,小說,…};③導演 = { 李安,克里斯托弗·諾蘭,…};④主演 = { 布魯斯·李,萊昂納多·迪卡普里奧,…};⑤發行時間 = {1995,2005,…}。對於模型來說,捕捉信息量大的特徵組合 / 特徵交互很重要。例如,3階特徵組合(類型 = 小說,導演 = 克里斯托弗·諾蘭,主演=萊昂納多·迪卡普里奧)或(語言=中文,類型=動作,主演=李小龍)可能會推斷出更高的用戶偏好。本文將介紹如何挖掘和建模有效的特徵組合/特徵交互。首先將梳理和分析當前的特徵交互建模研究現狀,以及圖神經網絡的發展;最後介紹如果通過將特徵建模成圖的結構,從而使用圖神經網絡進行高效顯式的特徵交互建模。

01




特徵交互的研究現狀
1.1 二階特徵交互
因子分解機(FM)是一種有效且流行的方法,用於對此類特徵交互進行建模。FM 的關鍵思想是學習每個獨熱編碼特徵的嵌入向量,然後通過各自向量的內積對每個特徵對的二階交互作用進行建模。由於簡單有效,FM在推薦系統和廣告點擊率預測方面許多工作中得到了廣泛應用,人們也相繼提出了不同的FM變體。特徵域感知因子分解機(FFM)考慮了不同特徵域的信息,並引入了域感知嵌入表達。AFM引入注意力機制來衡量不同二階特徵交互的權重。然而,這些方法只能對二階交互作用進行建模。
1.2 高階特徵交互
最近,許多基於深度神經網絡的模型被提出來學習高階特徵交互,這些模型遵循了統一的範式:將不同特徵的嵌入向量拼接在一起,並將其輸入到深度神經網絡(DNN)或其他專門設計的深度模型中,以學習高階特徵交互。例如,FNN、NFM、Wide&Deep和DeepFM等模型都是利用DNN來建模高階特徵交互。然而,這些基於DNN的模型只能在位級別上,以隱式的方式建模交互,缺乏良好的模型解釋。一些模型試圖學習高階的相互作用明確地通過引入專門設計的網絡。例如,Deep&Cross引入了交叉網絡 (CrossNet);xDeepFM引入了壓縮交互網絡。儘管如此,我們認為它們仍然不夠有效和顯式地建模高階特徵交互,因為沒有考慮特徵之間的結構性,只是簡單地將所有特徵進行非結構化組合,這樣會限制靈活模擬不同特徵域之間複雜的相互作用。

02




圖神經網絡研究現狀
圖是一種數據結構,它能夠建模節點及其節點之間的關係(邊)。近來,利用機器學習分析圖的研究越來越受到關注。早期的工作通常是將圖結構的數據轉換為序列結構的數據來處理。受到word2vec的啟發,Perozzi等提出一種無監督的DeepWalk 算法,以基於隨機行走學習圖中的節點嵌入;Tang等則提出一種網絡嵌入算法 LINE,該算法的特點是保留了一階和二階結構信息;Grover等提出node2vec,它引入了一個有偏的隨機行走。然而,這些方法在計算上可能是昂貴的,在大型圖上難以進行。
圖神經網絡 (GNN) 就是為了解決這些問題而設計的,它是一種基於深度學習的在圖結構數據上操作的方法。圖神經網絡的概念最早由 Scarselli 等提出。一般來說,圖神經網絡中的節點通過聚合鄰域的信息並更新其隱藏狀態來與鄰居進行交互。一直以來,圖神經網絡的變種很多,各種各樣的聚合方式和更新方式被提出。例如,門控圖神經網絡(GGNN)採用GRU來更新節點表達;圖卷積網絡 (GCN)考 慮 了 圖 的 頻 譜 結 構 並 利 用 卷 積 聚 合 器;GraphSAGE考慮了空域信息,引入了平均池化聚合器、LSTM聚合器和Pooling聚合器三種聚合器;圖形注意力網絡(GAT)則結合了注意力機制。由於具有令人信服的性能和較高的可解釋性,圖神經網絡逐漸成為一種應用廣泛的圖結構數據分析方法。最近,有很多利用圖神經網絡的應用,如神經機器翻譯,語義分割、圖像分類、情境識別、推薦系統、腳本事件預測和時尚分析等。圖神經網絡適用於對圖結構特徵上的節點交互進行內在建模。因此本文將探索使用圖神經網絡在圖結構的特徵上建模交互。

03




基於圖神經網絡的特徵交互建模
3.1 特徵交互圖神經網絡
特徵交互圖神經網絡(Fi-GNN)首次提出將具有多個特徵域的特徵表達成圖的結構,從而利用圖神經網絡去捕捉不同特徵之間的結構關係,並提供很好的模型可解釋性。如圖1 所示,Fi-GNN首先將輸入的包含多個類別特徵(特徵域)的稀疏向量映射成稀疏的獨熱嵌入向量,然後通過嵌入層得到每個特徵域獨有的嵌入向量。對於每個包含多個特徵域的特徵,我們將其表達成特徵圖的形式。在此特徵圖上,每個節點對應一個特徵域,不同的特徵域可以通過它們之間的邊進行交互。為了建模任意兩個特徵域之間的交互,在此圖中任意兩個點(特徵域)之間都有邊連接,換句話說,這是一個完全圖,因此可以將建模交互任務轉換為在特徵圖上的建模節點交互。通過將特徵圖輸入所提出的Fi-GNN 中,對節點交互進行建模。在Fi-GNN 的輸出上應用一個注意層來進行預測。
圖1 Fi-GNN 流程圖
我們採用的圖神經網絡為GGNN。每個點(特徵)的向量會根據聚合得到鄰居的狀態和自己的狀態,輸入到門控循環單元里進行更新。在此基礎上還增加了殘差連接的設置,為了使高層表達也能記住底層信息。此外,為了靈活建模不同特徵之間的通過邊交互,試圖給每個邊上賦予一個獨有的交互函數。我們的圖具有大量邊的完全圖,簡單地為每條邊分配一個唯一的交互函數會消耗太多的參數空間和運行時間。為了減少時間和空間的複雜性,同時實現靈活的建模方式,將交互函數進行解耦。每條邊上的交互轉移矩陣分解為連接兩個點上的矩陣,因此邊規模的參數量被削減到點級別,大大地降低了參數量。
經過K次特徵交互與更新後,可得到圖中每個節點(特徵)的表達。由於節點與其K階內的鄰居都進行了交互,因此對K階特徵交互進行建模,即捕捉了 K 階的組合特徵。根據所有特徵域的最終表達,可以進行預測。顯然,每個特徵域節點的最終表達捕獲了其與所有 K階內鄰居的交互。在這裡分別對每個特徵域的最終表達進行預測評分,並使用一個注意力機制來衡量它們對整體預測的影響。
3.2 圖神經網絡與因子分解機的結合
上面介紹了我們第一次嘗試用圖神經網絡建模特徵交互,儘管取得不錯效果,但圖神經網絡本身是設計用來解決節點分類或者鏈接預測問題,因此包含很多並不適合於建模特徵交互的操作。此外,因為不知道哪些特徵交互對預測有效,在Fi-GNN中我們建模所有對的特徵交互,因此特徵交互圖是全連接形式。然而在實際應用中,並不是所有對特徵交互都是有效的,有些特徵交互反而會對效果產生影響。因此直接使用圖神經網絡建模特徵交互,從效率及效果上考慮可能都不是最佳選擇。
為了解決這兩類方法各自的問題,並同時利用它們的優勢,本節嘗試將因子分解機與圖神經網絡進行結合,提出圖因子分解機(GraphFM)來高效顯式地建模高階特徵交互。具體來講,同樣將多特徵域的特徵表達成圖的結構,然而我們設計的GraphFM可以篩選到有效融合的特徵交互組合,通過結合因子分解機高效建模交互的功能,以及圖神經網絡捕捉高階關係的功能,GraphFM能夠有效地建模任意高階的特徵交互。
如圖2 所示, GraphFM主要包含兩部分,特徵交互選擇部分和特徵交互聚合部分。前者將篩選出對最後預測的特徵交互組合(特徵交互圖中的邊);後者結合了因子分解機的特徵交互組合建模方式,以及圖神經網絡特徵聚合方式,來聚合特徵交互並更新特徵表達。
圖2 GraphFM 模型圖
在特徵交互選擇部分的目的是選擇對最終預測有效的特徵交互組合,這也可以看作是特徵交互上的鏈接預測問題,即預測兩個特徵點之間是否有鏈接(交互)。然而,圖結構是離散的,其中連接兩個節點的邊要麼存在、要麼不存在,這就使得該過程不可微分,因此不能直接採用基於梯度下降的優化技術進行優化。為了克服這一局限性,我們用加權邊集合代替二元邊集,每條邊的權重即為其存在的概率,這也反映了它所連接兩個特徵之間的交互對最終預測的有利程度。需要注意的是,我們在每層學習都不同的圖結構。通過這種方式,在列舉有益的高階特徵交互時有更高的效率和靈活性,這樣的圖結構連續建模可以實現梯度的反向傳播。值得一提的是,由於不知道真正的圖結構,即哪些特徵交互是對最終預測有益的,我們的梯度來自於模型輸出與目標之間的誤差。直觀地講,將每對特徵嵌入的元素乘積視為一個項,並使用MLP估計其得分;也可以選擇歐氏距離或其他距離度量。根據估計的邊存在概率,可以採樣一個m度圖,即每個點有m個鄰居。具體來講,對於每個點,我們採樣與其連接的擁有最高m個概率的邊,保留這m個特徵,掩蓋其他特徵。
在特徵交互聚合部分,由於已經選擇了有效的特徵交互,或者換句話說,學習了圖結構,就可以執行特徵交互(鄰域)聚合操作來更新特徵表示。對於一個目標特徵節點,當聚合其與鄰居的有效交互時,我們還會計算每個交互的注意力係數。這表明任意兩個特徵之間相互作用的重要性。為了使係數在不同的特徵節點之間容易比較,使用 softmax 函數對所有選擇進行歸一化。為了捕捉不同語義子空間中特徵交互的多義性,同時穩定學習過程,擴展了本機制——採用多頭注意力機制。具體來說,有多個獨立的注意力機制執行特徵更新,然後將這些更新特徵進行拼接,得到最終的輸出特徵表示。

04




實驗
4.1 實驗設置
在三個數據集上進行了實驗。Criteo是一個著名的CTR預測行業基準數據集,在展示廣告的39個匿名特徵域中,有超過4500萬用戶點擊記錄。給定用戶和其正在訪問的頁面,我們的目標是為了預測他點擊給定廣告的概率。Avazu數據集包含用戶對顯示在移動設備廣告上的廣告點擊行為。擁有23個匿名特徵域,包括用戶 / 設備功能和廣告屬性。MovielLens-1M數據集包含了用戶對電影的評分,共包含 7個類別特徵。對於前兩個數據集,分別刪除出現次數少於10次和5次的特徵,並將它們視為單個特徵<未知 >。將所有樣本隨機分成8:1:1進行訓練、 驗證和測試。選擇兩個評價指標AUC (Area Under the ROC curve) 和 Logloss(交叉熵 ), AUC衡量一個正樣本的打分高於隨機選擇負樣本的概率,越高的AUC表示性能越好;Logloss測量每個實例預測分數和真實標籤之間的距離,越低的Logloss表示性能越好。
4.2 實驗結果
表 1 展示了不同方法在3個數據集上的實驗結果。可以看到,本文提出的兩個基於圖結構方法Fi-GNN和 GraphFM取得了次優和最優效果。這說明了考慮特徵中隱含的結構性,以及所提的基於圖神經網絡的特徵交互建模方法的有效性。而GraphFM在Fi-GNN的基礎上又取得了很大的效果提升,這說明我們提出的將圖神經網絡與因子分解機結合確實能夠結合兩者優點,並解決兩者各自缺點。在Criteo數據集和Avazu數據集上兩個模型均取得較大提升。在MovieLens-1M數據集上取得巨大提升,這可能是由於MovieLens-1m數據集的特徵域較少,從而圖的規模較小。因此可以更加有分辨性的建模,不用特徵之間的交互。
表 1 每種算法在3個數據集上的實驗結果

05




結束語
本文介紹了基於圖神經網絡模型的特徵交互建模方法。首先闡述了特徵交互的研究意義及研究現狀景 ; 然後梳理了圖神經網絡的發展歷程 ; 接着詳細介紹了基於圖神經網絡的特徵交互建模方法。本文介紹了兩個工作,第一個工作是第一次提出考慮特徵之間的結構,並把特徵表達成圖結構使用圖神經網絡來建模特徵交互;第二個工作是在此基礎上,提出通過將圖神經網絡與因子分解機結合,並結合各自的優勢,解決各自存在的問題,所提方法能夠更有效、更顯式地在圖結構特徵上建模特徵交互。實驗結果表明,相比現有方法,所提出兩個基於圖神經網絡的特徵交互算法可以帶來顯著的性能提升。立足於本文當前的研究成果,將來的工作重心在於探索所提方法是否也能在圖表示學習的任務上取得更好效果,例如節點分類和鏈接預測。
(參考文獻略)
選自《中國人工智能學會通訊》
2021年第11卷第4期
科技大數據理論和技術專輯

本文目的在於學術交流,並不代表本公眾號贊同其觀點或對其內容真實性負責,版權歸原作者所有,如有侵權請告知刪除。

「綜述專欄」歷史文章


基於深度學習的計算機視覺研究新進展大規模神經網絡最新文獻綜述:訓練高效DNN、節省內存使用、優化器設計十年回顧——CV的未來:ConvNeXt or Transformer?簡述 Human Pose with Deep-learning圖像異常檢測研究現狀綜述NER的簡單綜述深入理解LightGBM2022圖神經網絡5篇最新的研究綜述:雙曲/圖分類/聯邦/等變/異質性深度神經網絡 FPGA 設計進展、實現與展望視覺-語言(VL)智能:任務、表徵學習和大型模型基於深度學習的SLAM綜述:邁向空間機器智能時代Michael Bronstein 最新幾何深度學習綜述:超越 WL 和原始消息傳遞的 GNN從識別到推理——規則學習(Rule Learning)綜述公平機器學習:概念、分析與設計知識蒸餾 | 最新2022研究綜述更多綜述專欄文章,請點擊文章底部「閱讀原文」查看

分享、點讚、在看,給個三連擊唄!

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()