阿里技術 - ACMMM2021｜在多模態訓練中融入「知識+圖譜」：方法及電商應用實踐－鑽石舞台

一背景1 多模態知識圖譜

隨着人工智能技術的不斷發展，知識圖譜作為人工智能領域的知識支柱，以其強大的知識表示和推理能力受到學術界和產業界的廣泛關注。近年來，知識圖譜在語義搜索、問答、知識管理等領域得到了廣泛的應用。多模態知識圖譜與傳統知識圖譜的主要區別是，傳統知識圖譜主要集中研究文本和數據庫的實體和關係，而多模態知識圖譜則在傳統知識圖譜的基礎上，構建了多種模態（例如視覺模態）下的實體，以及多種模態實體間的多模態語義關係。當前典型的多模態知識圖譜有DBpedia、Wikidata、IMGpedia和MMKG。

多模態知識圖譜的應用場景十分廣泛，它極大地幫助了現有自然語言處理和計算機視覺等領域的發展。多模態結構數據雖然在底層表徵上是異構的，但是相同實體的不同模態數據在高層語義上是統一的，所以多種模態數據的融合對於在語義層級構建多種模態下統一的語言表示模型提出數據支持。其次多模態知識圖譜技術可以服務於各種下游領域，例如多模態實體鏈接技術可以融合多種模態下的相同實體，可應用於新聞閱讀，同款商品識別等場景中，多模態知識圖譜補全技術可以通過遠程監督補全多模態知識圖譜，完善現有的多模態知識圖譜，多模態對話系統可用於電商推薦，商品問答領域。

2 多模態預訓練

預訓練技術在計算機視覺(CV)領域如VGG、Google Inception和ResNet，以及自然語言處理(NLP)如BERT、XLNet和GPT-3的成功應用，啟發了越來越多的研究者將目光投向多模態預訓練。本質上，多模態預訓練期望學習到兩種或多種模態間的關聯關係。學術界的多模態預訓練方案多基於Transformer模塊，在應用上集中於圖文任務，方案大多大同小異，主要差異在於採用模型結構與訓練任務的差異組合，多模態預訓練的下游任務可以是常規的分類識別、視覺問答、視覺理解推斷任務等等。VideoBERT是多模態預訓練的第一個作品，它基於BERT訓練大量未標記的視頻文本對。目前，針對圖像和文本的多模態預訓練模型主要可以分為單流模型和雙流模型兩種架構。VideoBERT，B2T2， VisualBERT， Unicoder-VL ， VL-BERT和UNITER使用了單流架構，即利用單個Transformer的self-attention機制同時建模圖像和文本信息。另一方面，LXMERT、ViLBERT和FashionBERT引入了雙流架構，首先獨立提取圖像和文本的特徵，然後使用更複雜的cross-attention機制來完成它們的交互。為了進一步提高性能，VLP應用了一個共享的多層Transformer進行編碼和解碼，用於圖像字幕和VQA。基於單流架構，InterBERT將兩個獨立的Transformer流添加到單流模型的輸出中，以捕獲模態獨立性。

3 知識增強的預訓練

近年來，越來越多的研究人員開始關注知識圖(KG)和預訓練語言模型(PLM)的結合，以使PLM達到更好的性能。K-BERT將三元組注入到句子中，以生成統一的知識豐富的語言表示。ERNIE將知識模塊中的實體表示集成到語義模塊中，將令牌和實體的異構信息表示到一個統一的特徵空間中。KEPLER將實體的文本描述編碼為文本嵌入，並將描述嵌入視為實體嵌入。KnowBERT使用一個集成的實體鏈接器，通過一種單詞到實體的注意形式生成知識增強的實體廣度表示。KAdapter為RoBERTa注入了事實知識和語言知識，並為每種注入的知識提供了神經適配器。DKPLM可以根據文本上下文動態地選擇和嵌入知識，同時感知全局和局部KG信息。JAKET提出了一個聯合預訓練框架，其中包括為實體生成嵌入的知識模塊，以便在圖中生成上下文感知的嵌入。KALM、ProQA、LIBERT等研究還探索了知識圖與PLM在不同應用任務中的融合實驗。然而，目前的知識增強的預訓練模型僅針對單一模態，尤其是文本模態，而將知識圖融入多模態預訓練的工作幾乎沒有。

二多模態商品知識圖譜及問題

隨着人工智能技術的不斷發展，知識圖譜作為人工智能領域的知識支柱，以其強大的知識表示和推理能力受到學術界和產業界的廣泛關注。多模態知識圖譜與傳統知識圖譜的主要區別是，傳統知識圖譜主要集中研究文本和數據庫的實體和關係，而多模態知識圖譜則在傳統知識圖譜的基礎上，構建了多種模態（例如視覺模態）下的實體，以及多種模態實體間的多模態語義關係。如圖1所示，在電商領域，多模態商品知識圖譜通常有圖像、標題和結構知識。

多模態商品知識圖譜的應用場景十分廣泛，多模態結構數據雖然在底層表徵上是異構的，但是相同實體的不同模態數據在高層語義上是統一的，所以多種模態數據的融合有利於充分表達商品信息。多模態商品知識圖譜技術可以服務於各種下游領域，例如多模態實體鏈接技術可以融合多種模態下的相同實體，可以廣泛應用於產品對齊，明星同款等場景中，多模態問答系統對於電商推薦，商品問答領域的進步有着重大的推進作用。但目前還相當缺乏有效的技術手段來有效融合這些多模態數據，以支持廣泛的電商下游應用。

圖1

最近幾年，一些多模態預訓練技術被提出（如VLBERT、ViLBERT、LXMERT、InterBERT等），這些方法主要用於挖掘圖像模態與文本模態信息之間的關聯。然而，將這些多模態預訓練方法直接應用到電子商務場景中會產生問題，一方面，這些模型不能建模多模態商品知識圖譜的結構化信息，另一方面，在電商多模態知識圖譜中，模態缺失和模態噪聲是兩個挑戰（主要是文本和圖片的缺失和噪聲），這將嚴重降低多模態信息學習的性能。在真實的電子商務場景中，有的賣家沒有將商品圖片(或標題)上傳到平台，有的賣家提供的商品圖片(或標題)沒有正確的主題或語義。圖 2中的Item-2和Item-3分別顯示了阿里場景中的模態噪聲和模態缺失的例子。

圖2

三解決方案

為了解決這一問題，我們將產品結構化知識作為一種獨立於圖像和文本的新的模態，稱為知識模態，即對於產品數據的預訓練，我們考慮了三種模態的信息:圖像模態(產品圖像)、文本模態(產品標題)和知識模態(PKG)。如圖2所示，PKG包含<h, r, t>形式的三元組。例如，<Item-1， Material，Cotton>表示產品Item-1的材質是棉花。我們這樣處理的原因在於，（1）PKG描述了產品的客觀特性，它結構化且易於管理，通常為PKG做了很多維護和標準化工作，所以PKG相對乾淨可信。(2) PKG與其他模態包含的信息有重合也有互補，以圖2的Item-1為例，從圖片、標題和PKG都可以看出Item-1是一件長袖t恤；另一方面，PKG表明這款t恤不僅適合秋季，也適合春季，但從圖片和標題看不出來。因此，當存在模態噪聲或模態缺失時，PKG可以糾正或補充其他模態。

四模型架構

我們提出了一種在電子商務應用中新穎的知識感知的多模態預訓練方法K3M。模型架構如圖3所示，K3M通過3個步驟學習產品的多模態信息:（1）對每個模態的獨立信息進行編碼，對應modal-encoding layer，(2)對模態之間的相互作用進行建模，對應modal-interaction layer，（3）通過各個模態的監督信息優化模型，對應modal-task layer。

圖3

（1）modal-encoding layer。在對每個模態的單個信息進行編碼時，針對圖像模態、文本模態以及知識模態，我們採用基於Transformer的編碼器提取圖像、文本、三元組表面形式的初始特徵。其中文本模態和知識模態的編碼器參數共享。

（2）modal-interaction layer。當建模模式之間的相互作用時，有兩個過程。第一個過程是文本模態和圖像模態之間的交互：首先通過co-attention Transformer基於圖像和文本模態的初始特徵學習對應的交互特徵，其次，為了保持單個模態的獨立性，我們提出通過初始交互特徵融合模塊來融合圖像和文本模態的初始特徵及其交互特徵。第二個過程是知識模態和其他兩個模態的交互：首先用圖像和文本模式的交互結果作為目標產品的初始表示,用三元組關係和尾實體的表面形態特徵作為的商品屬性和屬性值的表示。然後通過結構聚合模塊傳播並在目標產品實體上聚合商品屬性和屬性值信息。商品實體的最終表示可以用於各種下游任務。

（3）modal-task layer。圖像模態、文本模態和知識模態的預訓練任務分別為掩碼對象模型、掩碼語言模型和鏈接預測模型。

五實驗與實踐1 實驗（論文的實驗）

K3M在淘寶4千萬商品上訓練,其中每個商品包含一個標題,一張圖片和一組相關的三元組。我們設置不同的模態缺失和噪音比率，在商品分類、產品對齊以及多模態問答3個下游任務上評估了K3M的效果，並與幾個常用的多模態預訓練模型對比:單流模型VLBERT,和兩個雙流模型ViLBERT和LXMERT。實驗結果如下：

圖3顯示了各種模型對商品分類的結果，可以觀察到:(1)當模態缺失或模態噪聲存在時，基線模型嚴重缺乏魯棒性。當TMR增加到20%、50%、80%和100%時，「ViLBERT」、「LXMERT」和「VLBERT」的性能從TMR=0%平均下降10.2%、24.4%、33.1%和40.2%。(2)帶有缺失和噪聲的文本模態對性能的影響大於圖像模態。對比3個基線的「標題噪聲」和「圖像噪聲」，隨着TNR的增加，模型性能下降了15.1% ~ 43.9%，而隨着INR的增加，模型性能下降了2.8% ~ 10.3%，說明文本信息的作用更為重要。(3)引入知識圖可以顯著改善模態缺失和模態噪聲問題。在無PKG基線的基礎上，「ViLBERT+PKG」、「LXMERT+PKG」和「VLBERT+PKG」在TMR從0%增加到100%時的平均改善率分別為13.0%、22.2%、39.9%、54.4%和70.1%。(4)K3M達到了最先進的性能。它將「ViLBERT+PKG」、「LXMERT+PKG」和「VLBERT+PKG」在各種模態缺失和模態噪聲設置下的結果提高了0.6%到4.5%。

圖4顯示了產品對齊任務的結果。在這個任務中，我們可以得到類似於在項目分類任務中的觀察結果。此外，對於模態缺失，模型性能不一定隨着缺失率的增加而降低，而是波動的:當缺失率(TMR、IMR和MMR)為50%或80%時，模型性能有時甚至比100%時更低。實際上，這個任務的本質是學習一個模型來評估兩個項目的多模態信息的相似性。直覺上，當對齊的商品對中的兩個項目同時缺少標題或圖像時，它們的信息看起來比一個項目缺少標題或圖像而另一個項目什麼都不缺時更相似。

表2顯示了多模態問答任務的排序結果。在這個任務中，我們也可以看到類似於在商品分類任務中的觀察結果。

2 實踐（阿里的業務應用效果）

1、餓了麼新零售導購算法，離線算法AUC提升0.2%絕對值；在線AB-Test實驗，流量5%，5天：CTR平均提高0.296%，CVR平均提高5.214%，CTR+CVR平均提高：5.51%；

2、淘寶主搜找相似服務，離線算法AUC提升1%，業務方反饋是很大的提升；目前在線AB測試中；

3、阿里媽媽年貨節商品組合算法，在線算法，基於Emedding的實驗桶（5.52%）CTR指標相較於另外2個實驗桶（5.50%，5.48%）分別提高0.02%、0.04%的點擊率，相對提高分別為0.363%、0.73%；

4、小蜜算法團隊低意願下的相似商品的推薦，整體增加這一路的召回情況下，轉化能有2.3%到2.7%左右的提升，相對提升12.5%。之前版本相對提升11%。後續擴展到其他場景。

從傳統數據庫到雲數據庫演進

隨着雲計算的發展，數據庫的部署形式也發生了很大的變化。傳統的數據都是部署在客戶機房裡面，與客戶的機器綁定。而在雲環境下，希望數據庫能夠在多種形態下部署，比如公有雲、專有/私有雲、混合雲以及軟硬件一體化獨立部署，以及純軟件輸出。阿里雲數據庫不僅在雲上提供服務，還會支撐整個阿里巴巴集團內部經濟體的所有活動。點擊閱讀原文查看詳情！

朱渝珊
https://mp.weixin.qq.com/s/HzvdXsCma4T2cg6DLHY6Kw

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

鑽石舞台

鑽石鑽石亮晶晶

阿里技術 - ACMMM2021｜在多模態訓練中融入「知識+圖譜」：方法及電商應用實踐

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

阿里技術 - ACMMM2021｜在多模態訓練中融入「知識+圖譜」：方法及電商應用實踐

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結