close
©PaperWeekly 原創 ·作者 |范帥
單位 |廈門大學
研究方向 |自然語言處理

本文主要介紹我們在自然語言處理領域被 EMNLP 2022 接收的工作,我們提出了SentiWSP,一種基於多層級的情感感知預訓練模型,能夠在多個情感分析下游任務上微調取得競爭性的性能。該模型通過巧妙的設計詞級別和句子級別的預訓練任務,使得模型可以更好地在兩個層級捕捉到句子的情感信息。



論文標題:

Sentiment-Aware Word and Sentence Level Pre-training for Sentiment Analysis

收錄會議:

EMNLP 2022

論文鏈接:

https://arxiv.org/abs/2210.09803

代碼鏈接:

https://github.com/XMUDM/SentiWSP

本文作者:

范帥(廈門大學),林琛(廈門大學),李浩楠(墨爾本大學),林正昊(廈門大學),蘇勁松(廈門大學),張航(IDEA Research),宮葉雲(MSRA),郭健(IDEA Research),段楠(MSRA)


研究背景

當前,預訓練模型例如 GPT,BERT,RoBERTa,通過在大規模無標註語料上預訓練之後,可以在很多下游任務上微調取得很好的性能,其中也包含典型的文本分類任務,即情感分析任務。
近兩年一些在在情感領域做的一些預訓練模型的工作能夠在情感分析的下游任務上微調取得很好的性能,例如 SentiBERT,SentiLARE,SENTIX 等,往往都是在詞級級別構建情感相關的預訓練任務,通過在 BERT的MLM(Mask language model)任務中引入情感詞,詞性,或者詞性語法樹之類的詞級別情感知識。它們通常忽略了對於句子層面的預訓練任務的設計。
然而,通過 MLM 任務上的改進在詞級別學習文本中的情感信息往往局限於被少量 mask 的詞本身,並且因為情感分析正是從整個句子層面考慮的對文本整體情感傾向的分析。
因此我們:
如何從詞級別學習詞語中更豐富的情感信息

如何從句子級別構造更加有效的預訓練任務提升模型對於文本的整體情感信息的捕捉

是主要的挑戰。


方法

SentiWSP 分別從詞級別和句子級別分別設計了相關的預訓練任務來提升模型對於文本情感信息的捕捉,在詞級別使用情感詞替換檢測任務,通過生成器和判別器聯合訓練,增強判別器對於文本中情感信息的學習。然後,通過設計的對比學習框架來提升經過詞級別訓練之後的判別器對於整個句子情感層面的信息捕捉能力。接下來介紹我們設計的預訓練任務的細節。


2.1 詞級別預訓練

對於給定的文本句子,我們首先會使用情感詞典對句子中出現的情感詞進行標記,分別對於情感詞和全部詞做一定的遮蓋,對於情感詞的遮蓋概率是,遮蓋之後的句子輸入到生成器進行替換,替換的過程是我們會在生成器對遮蓋的詞生成的概率分布中做採樣進行替換,然後將替換之後的句子輸入到判別器做每一個詞的判別,判別是否被替換。
例如圖 1 當中的左邊,我們對句子中的情感詞 「sassy」,「charming」 以及普通詞 「comedy」 進行了遮蓋,然後這些詞被生成器進行了替換,替換之後的句子輸入到判別器進行每個位置的判別,判別是否被替換。
這個過程中生成器和判別器是聯合訓練的,生成器的 loss 依然是用原句的 MLM loss,用的是被 mask 掉詞的句子 的每個遮蓋掉詞位置的表示即 ,以及詞的原始嵌入 來計算恢復原有的詞的 loss:

我們對生成的概率分布 進行隨機採樣之後的詞來對被遮蓋的詞進行替換,被替換之後的句子 通過和原句對比即可得到每個詞位置是否被替換的標籤,我們通過用這個是否被替換的 0-1 標籤來監督訓練判別器:
最終,詞級別預訓練的 loss 是兩者相加:
在這個過程中,隨着生成器越來越強,替換的詞對於判別器而言會形成越來越難的挑戰,因此也會讓判別器學的越來越好。
2.2 句子級別預訓練
經過詞級別的訓練之後,我們要對判別器進行進一步的句子級別的預訓練,我們首先對文本句子當中的情感詞進行 概率的遮蓋構造成查詢,正例是原句,如圖1的右邊部分,也可以看到我們構造的 query 和 postive。
我們首先對模型進行使用 in-batch warm-up 的對比學習,使得模型具備簡單的從句子層面學習的能力:

即對於當前的查詢 的正例是 ,而同一個 batch 的其餘樣本是負例。

因為 in-batch 內的樣本對於模型來說已經形成不了更多的考驗,因此我們設計了一個基於 ANN 檢索的難負樣本挖掘,在 cross-batch 中選擇更具有難度的難負樣本來對模型進行進一步的學習。

如圖 1 右邊部分右上角所示,我們使用異步刷新機制的難負樣本挖掘,首先使用 warm-up 之後的模型作為 checkpoint 0 模型,並之後通過使用上一個 checkpoint 模型對當前的文檔庫進行推理,並構建索引,使用 ANN 向量檢索出每一個查詢的 top n 個最近鄰的句子,然後從中採樣 k 個句子作為當前 query 的難負樣本,即不斷的更新難負樣本來訓練當前的 checkpoint 模型,依次迭代。

隨着模型的逐漸學習,我們會更新當前所有 query 的難負樣本,然後訓練下一個 checkpoint 模型,以此迭代,這一部分的優化目標是將正例拉近,負例拉遠:



實驗結果

我們通過在 wikipedia 的語料上預訓練我們的模型,我們加載 ELECTRA 的模型作為我們的初始參數。然後我們在一些下游任務上面微調驗證我們模型對於情感分析任務的有效性。

主實驗部分,我們對經過我們預訓練之後的模型在 5 個最常用的開源句子級別情感分類的數據集 SST,IMDB,MR,Yelp-2/5 和方面級情感分類 Semeval2014 數據集兩個子集 Resaurant 14 和 Laptop14 上面做微調進行實驗:

對比基線得到的效果如下:

對比近兩年的一些情感領域的預訓練工作以及通用的預訓練模型的效果,我們的模型在句子級別數據集上面都有着最好的性能。
在方面級情感分析的數據集上,我們的總體效果達到了最優,在其中一個子集即 Restaurant14 上略遜於 SCAPT 這篇專門針對方面級情感分析所做的工作。

對於 ELECTRA,我們在所有數據集上都有着效果上的提升,這證明了我們預訓練任務的有效性。



對於我們提出的兩個預訓練任務,我們進行了消融實驗分析。發現我們提出的預訓練任務在不同規模的模型上都有着很好的性能。base 版本是 12 層 768 隱層而 large 是 24 層 1024 隱藏層大小的模型。

從消融實驗表 2 的結果我們發現:
使用詞級別和句子級別的預訓練任務之後模型在所有情感分類下游任務上都得到了提升,對與不同大小的模型而言結論相同
詞級別和句子級別的預訓練任務都很重要,並且在不同的數據集上面表現並不相同。
使用我們的預訓練任務訓練的 base 版本的模型甚至優於一些通用預訓練模型的 large 版本,例如 BERT,RoBERTa。


同時我們也做了一些相關的參數實驗驗證不同實驗設置下我們提出的預訓練任務的有效性。

我們在 IMDB 和 MR 上驗證了我們提出的 cross-batch 難負樣本的效果,對比僅僅使用 in-batch 內負樣本訓練同樣步數的模型,我們增加的難負樣本可以帶來更好的效果,並且隨着難負樣本選擇數量的增加,效果逐漸上升,後續下降的潛在原因是難負樣本個數過多會使模型面臨的挑戰過難。


在論文中我們還分別驗證了情感詞遮蓋的比例在詞級別預訓練和句子級別預訓練任務中的一些性能,具體細節可以參考我們的論文。


總結

在本文中,我們提出了一種基於情感感知的多層級預訓練模型SentiWSP,分別在詞級別和句子級別設計了相應的預訓練任務,提高了模型對於文本中情感知識的捕捉能力。在詞級別引入情感詞替換生成檢測任務,通過生成器和判別器的聯合訓練使得判別器能夠更細緻的捕捉情感信息。同時,在句子級別,我們通過構造巧妙的對比學習機制能夠在整個句子層面學習到文本的情感知識。我們在多個情感分類下游任務上微調後取得了很好的性能。未來的工作也將持續關注預訓練模型在情感領域的一些零樣本學習或者小樣本學習。


更多閱讀



#投 稿通 道#

讓你的文字被更多人看到




如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝稿件基本要求:

• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註

• 稿件建議以markdown格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬投稿通道:

• 投稿郵箱:hr@paperweekly.site

• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按添加PaperWeekly小編


🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧
·


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()