© 作者|陳昱碩
機構|中國人民大學
研究方向 | 推薦系統
為了緩解推薦系統中存在的數據稀疏以及冷啟動等問題,部分研究者嘗試將多模態信息引入推薦系統中,使模型在訓練過程中得到更好的用戶和物品表示,進而取得更好的模型效果。
https://ieeexplore.ieee.org/document/9152003
這項工作提出了一種基於用戶多模態偏好的推薦模型。
以往的使用多模態推薦的工作都至少存在以下的一個缺點:
1)採用淺層模型,不能很好地捕獲高層概念信息;
2) 未能捕獲用戶個性化的視覺偏好。
該論文提出了UMPR(deep users' multimodal preferences-based recommendation) 模型來捕獲用戶和物品之間的文本和視覺之間的聯繫。
模型圖如上所示,輸入包括用戶的歷史評論,物品的歷史評論,用戶對物品的評論(僅在訓練時使用) 以及物品在個方面的圖片集。訓練任務包括 Rating Prediction 以及用戶視覺偏好損失。
該模型主要分為三個部分:Review Network,Visual Network和Control Network:
Review Network主要是捕獲和之間的關聯,該網絡先使用Glove + 雙向 GRU 得到評論的表示以及兩者之間的關聯度, 然後再使用 attention 機製得到和之間的相關匹配模式及其相關情感證據;
Visual Network主要捕獲的特徵以及和用戶視覺偏好的關係,該網絡使用 VGG-16 得到物品的表示,然後再計算其與用戶的正面視覺偏好和負面視覺偏好的關聯程度, 從而得到物品與用戶視覺偏好的關係;
而Control Network則是捕獲跨模態之間的聯繫以及指導用戶視覺偏好的學習。由於該模型的性能對參數的初始化方式十分敏感,該工作還為模型中的一些模塊設計了預訓練任務以提升效果。
2. An integrated model based on deep multimodal and rank learning for point-of-interest recommendation
https://link.springer.com/article/10.1007%2Fs11280-021-00865-8
這項工作針對 POI 推薦中存在的數據稀疏、冷啟動等問題,提出了DMRL(deep multi-modal rank learning model) 模型。
這個模型針對用戶行為的時空特點,建立了一個與時間相關的一個用戶偏好模型,能夠更好的捕捉用戶行為。並且為了緩解數據稀疏問題,該模型引入了 POI 的語義信息,並使用 BPR 框架來學習隱式交互,模型結構如下圖所示:
其中為用戶表示,和分別為正例地點和負例地點的表示,和分別為正負例地點的多模態語義信息,和分別為模型對正負例交互的打分,計算方法如下:
其中為地點和地點間的距離關聯度,計算方法為,為之間的距離。從這個打分函數可以看出,該工作在傳統的矩陣分解方法的基礎上增加了臨近地點對目標地點表示的影響。
而對於多模態信息,該模型分別對文本和圖像使用了LSTMAE以及VGG-16來得到對應的表示,然後通過 fusion 網絡進行融合,從而得到地點多模態的語義信息。這裡的 fusion 網絡就是分別對文本和圖像的表示通過一個線性層,然後將兩者拼接起來再通過一個線性層進行融合。
該部分的模型圖如下所示:
最後該工作使用了一種基於排序的動態抽樣策略,以加快收斂速度,並在模型優化過程中提高模型精度。
3. Pre-training Graph Transformer with Multimodal Side Information for Recommendation
https://dl.acm.org/doi/10.1145/3474085.3475709
這項工作為了將物品的多模態信息融入物品的表示中,提出了一個在同質物品圖上的預訓練模型PMGT(Pre-trained Multimodal Graph Transformer)。
這個模型首先是根據物品的共同購買次數構建物品的同質圖,即該圖上相鄰的兩個節點對應的物品共現次數應超過某個閾值。隨後該工作提出了一個MCNSampling的採樣算法來為每個物品採樣出相關的鄰居節點序列。如下圖 a 左半部分所示。這個序列越靠前的節點與就越相關。
而每個節點的表示由三部分組成,分別是多模態信息,位置表示以及是否為目標節點的表示,如上圖 b 所示。其中多模態信息的計算方法是將多模態的表示先映射到同一個向量空間,然後再使用注意力機制將他們融合起來。
該模型的預訓練任務有兩個,第一個是圖結構重建任務,即節點鏈接預測;第二個是 mask 節點的特徵恢復任務,使用經過 Transformer 網絡的表示來恢復 mask 節點的多模態特徵。
4. MM-Rec: Multimodal News Recommendation
https://arxiv.org/abs/2104.07407
這項工作提出了一種多模態新聞推薦算法MM-Rec(Multimodal News Recommendation) ,它融合了新聞的文本和視覺信息來學習多模態新聞表示。該模型結構如下圖所示:
它首先通過目標檢測算法 (Mask-RCNN) 從新聞的圖像中提取感興趣區域(ROI)。然後,我們使用預先訓練好的視覺語言模型 (ViLBERT) 對新聞文本和新聞圖像 ROI 進行編碼,並且使用 co-attention 網絡對其內在關聯性進行建模。
最後,為了得到更加準確的用戶建模,該工作還提出了一個跨模態候選注意網絡,計算了候選新聞與歷史新聞之間的跨模態關聯度,通過融合這些多模態信息來得到更好的用戶建模。
5. Course video recommendation with multimodal information in online learning platforms: A deep learning framework
https://bera-journals.onlinelibrary.wiley.com/doi/10.1111/bjet.12951
該研究的主要貢獻是設計了一個基於深度學習模型的多模態課程推薦框架。在該框架中,模型將從不同種類、不同模態的課程信息,如課程標題、課程音頻和課程評論,學習到物品和用戶的表示。此外,該工作還利用顯性和隱性反饋來推斷學習者的偏好。
該工作中使用了不同種類、不同模態的數據,如課程標題、課程視頻以及課程的其他數值特徵。對與課程的標題,該工作在去除了停用詞之後,使用預訓練好的詞表示,再使用這些詞表示的平均值作為標題的表示。
而對於課程視頻的圖像部分,該工作使用了ResNeXt-50處理視頻每一幀的畫面,再將這些畫面的表示進行平均,從而得到課程視頻圖像部分的表示。課程視頻的音頻部分這是使用Librosa處理,提取了過零率、頻譜質心、頻譜衰減、邁耶頻率倒譜係數和色度頻率五種聲學特徵。將上述的所有表示拼接起來就得到了課程的表示。
對於課程平台的用戶,該工作將用戶的交互行為分為兩類,一類是播放過的課程,稱為顯示交互,另一類是瀏覽過的課程,稱為隱式交互。而用戶的表示就是由播放過的課程表示的平均值與瀏覽過的課程表示的平均值拼接起來的。最後該工作使用 LSTM 來建模用戶和課程序列的關聯。
該工作的模型圖如下所示:
6. DEAMER: A Deep Exposure-Aware Multimodal Content-Based Recommendation System
https://link.springer.com/chapter/10.1007%2F978-3-030-59419-0_38
在之前的工作中,基於內容的推薦系統往往會受到數據稀疏的影響,導致模型會對已交互的物品表示過度特定化,而未知的物品表示則幾乎不可區分。為了緩解這一問題,該工作提出了DEAMER(Deep Exposure-Aware Multimodal contEnt-based Recommender) 模型。
該模型共分為兩個模塊,分別是曝光生成模塊(Exposure Generation Module) 和打分生成模塊(Rating Generation Module),如下圖所示:
曝光生成模塊是模擬推薦系統的現實場景,它基於多模態的用戶和物品信息來預計用戶是否會和該物品交互。
最後該模型使用如下的損失函數來聯合計算兩個模塊的損失函數:
7. MGAT: Multimodal Graph Attention Network for Recommendation
https://www.sciencedirect.com/science/article/abs/pii/S0306457320300182?via%3Dihub
該工作的主要研究如何在多模態交互圖上採用 GNN,自適應地捕獲用戶對不同模態的偏好。為此提出了一種新的多模態圖注意網絡,簡稱MGAT(Multimodal Graph Attention Network)。
MGAT 能在不同模態的交互圖上進行信息傳播,同時利用門控注意機制識別不同模式對用戶偏好的不同重要性分數。因此,它能夠捕獲隱藏在用戶行為中的更複雜的交互模式,並提供更準確的建議。
該模型的模型圖如上所示,一共有四個部件,分別是:
(1)嵌入層。初始化用戶的表示,用戶在模態上的偏好,物品的表示以及物品在模態上的表示;
(2)在單模態交互圖上嵌入傳播層,執行消息傳遞機制以捕獲用戶對各個模態的偏好;
(3)跨多模態交互圖的門控注意聚集,它利用與其他模態的相關性來學習每個鄰居的權重,以指導傳播;
(4)預測層,其基於最終表示來估計交互的可能性。最後使用 BPR loss 來優化模型。
8. Enhancing Music Recommendation with Social Media Content: an Attentive Multimodal Autoencoder Approach
https://ieeexplore.ieee.org/document/9206894
這項工作提出了一種多模態自編碼方法AMAE(Attentive Multimodal Autoencoder) 來捕獲用戶的多模態特徵。
該工作考慮了全局特徵和局部特徵對用戶推薦都存在影響這一因素,它為每個模態計算了全局特徵(根據用戶進行平均)和局部特徵(根據近鄰交互進行平均)。然後分別對不同模態,不同層次的特徵使用 Autoencoder 來獲取低維表示。同時為了不同模態的特徵能夠互補,該工作為這個 Autoencoder 設計了 Cross-Modal 的損失函數。
AMAE 部分的模型圖如下所示:
然後,在通過AMAE得到用戶多模態的全局和局部表示之後,使用注意力機制來聚合每個模態的全局和局部表示。最後再結合矩陣分解方法,將用戶的表示和所有模態的表示拼接起來,計算其與物品表示的點積值作為預測值,並使用 BPR 損失函數來優化預測部分的模型。
預測部分的模型圖如下所示:
9. Click-Through Rate Prediction with Multi-Modal Hypergraphs
https://dl.acm.org/doi/pdf/10.1145/3459637.3482327
該工作提出了基於超圖的多模態推薦框架HyperCTR,模型圖如下所示:
模型主要由四部分組成:基於時序的用戶行為注意力模塊,基於興趣的用戶超圖生成模塊,商品超圖構造模塊以及預測模塊。
基於時序的用戶行為注意力模塊旨在根據用戶的物品交互序列,通過用戶、物品和多模態類別的表示,結合 Transformer 的自注意力機制來學習交互序列內部的關係。基於興趣的用戶超圖生成模塊,商品超圖構造模塊是分別根據用戶行為以及物品的多模態聯繫,構建出對應的超圖,再在這些超圖上使用 HGCN 來學習用戶和物品的表徵。最後再將基於時序的用戶行為表示和基於超圖的用戶表示進行融合,最終通過MLP層得到最終的 CTR 預測值。
10.Multi-modal Knowledge Graphs for Recommender Systems
https://dl.acm.org/doi/10.1145/3340531.3411947
該工作的主要貢獻是提出了多模態知識圖譜自注意力網絡MKGAT(Multi-modal Knowledge Graph Attention Network)。這個模型相比於傳統的知識圖譜推薦,他能夠利用多模態的信息來增強推薦效果。該模型的模型圖如下所示,主要由兩個模塊組成:多模態知識圖譜嵌入模塊和推薦模塊。
為了將多模態實體合併到模型中,多模態知識圖譜嵌入模塊也會學習不同模態數據的表示。簡單的說,就是該模塊首先會為尾實體不同的模態使用不同的編碼器,隨後再統一到和頭實體同樣的維度上。如下圖所示:
然後在得到頭實體、尾實體以及關係的表示之後,該模塊仿照 KGAT,使用自注意力機制來匯聚周圍節點的信息。
二、小結
將多模態信息引入推薦系統,是解決推薦系統中數據稀疏以及冷啟動等問題一種研究方向。近兩年的研究工作大致可分為兩類:其中較為簡單的方法是從不同模態的特徵中學習到各自的表示,然後再將這些表示直接拼接或平均起來,作為用戶或物品的多模態表示;同時也有其他工作是利用注意力機制等方法來學習不同模態之間的關聯,來增強多模態的表示。通過這些多模態的表示,各種模型都一定程度上的緩解了數據稀疏的問題,提高了模型的冷啟動性能。
最後,希望本文能夠給讀者帶來一些啟發。如有不同見解,歡迎大家批評與討論。
歡迎乾貨投稿 \論文宣傳\合作交流推薦閱讀
推薦系統領域13個開源工具總結
由於公眾號試行亂序推送,您可能不再準時收到機器學習與推薦算法的推送。為了第一時間收到本號的乾貨內容, 請將本號設為星標,以及常點文末右下角的「在看」。