專知 - 【博士論文】基於深度學習的聯合實體關係抽取－鑽石舞台

隨着互聯網的興起，每天都有不同形式的大量的文本數據產生：新聞、研究文獻、博客、論壇文字以及社交媒體評論等。很多重要有用的信息隱藏在其中，如何從這些自由文本中自動抽取所需要的信息是一個關鍵並且重要的一步。信息抽取任務就是為此目標而誕生。本文主要研究信息抽取子任務之一的實體關係抽取任務。該任務旨在識別文本中出現的實體，並判斷出實體之間存在的關係。

傳統的有監督實體關係抽取通常採用基於流水線的方法，即實體模型和關係模型分開訓練。在測試階段，先用實體模型識別出實體，然後關係模型找出這些實體之間的關係。這種流水線的方法存在着錯誤傳播的缺點，前一個任務的錯誤會累積到後一個任務。為了緩解這一問題，研究人員提出了聯合模型。聯合模型將兩個子模型統一建模，可以進一步利用兩個任務之間的潛在信息，以緩解錯誤傳播的缺點。聯合模型的難點是如何加強實體模型和關係模型之間的交互，比如實體模型和關係模型的輸出之間存在着一定的約束，在建模的時候考慮到此類約束將有助於聯合模型的性能。

另一方面，為了解決實體關係抽取數據集難以獲得的問題，遠程監督的方法也被提出來。其主要思想是利用知識庫和大規模文本數據對齊，自動構建大規模的訓練集。然而，遠程監督方法的缺點是自動構建的訓練集中存在着很多的噪音數據，這些噪音數據的存在對遠程監督實體關係抽取有着很大的負面影響。此外，在有些應用場景中可能沒有現成的知識庫可以用來進行遠程監督，如何解決類似的數據噪音和數據缺失問題也是一大挑戰。

根據實體關係抽取方法的研究現狀，本文從數據和聯合模型兩個角度探索了幾種實體關係抽取聯合模型，並且探究了所提出模型的優勢和不足。具體來說，本文的主要貢獻有

1. 為了緩解遠程監督中的噪音樣本問題，本文提出利用少量高質量異構的人工標註數據集幫助遠程監督實體關係抽取任務。本文設計了一個基於多任務學習的融合框架，並且在融合過程中考慮到子模型之間的一致性約束，從而實現知識的遷移。本文提出的系統在標準遠程監督數據集能夠顯著的提高聯合抽取的性能（數據角度）。

2. 為了解決某些領域沒有現成知識庫無法進行遠程監督的問題，本文提出利用語言學規則進行遠程監督。首先應用領域無關的語言學規則自動構建訓練集，然後使用分類器在得到的訓練集上進行訓練，最後利用分類器進一步抽取語言學規則無法覆蓋的新的實體關係。本文提出的算法很快並且適用於大規模數據。在 Amazon 在 i 線評論數據集上的實驗表明了本文提出的算法明顯優於多個基準模型（數據角度）。

3. 為了加強實體模型和關係模型之間的交互，本文提出基於風險最小化訓練方法的聯合實體關係抽取模型，通過優化全局的損失函數以達到加強實體模型和關係模型之間聯繫的目的。在 ACE05 數據集上的實驗證明了提出模型的有效性（聯合模型角度）。

4. 為了同時考慮到實體類型和關係類型的信息，本文提出一個基於圖卷積網絡的聯合模型用於實體關係抽取。我們構造了實體-關係二分圖，並在圖上運行圖卷積網絡，從而捕獲多個實體和多個關係之間的信息。在 ACE05 數據集上的實驗證明了提出模型的有效性（聯合模型角度）。

https://www.czsun.site/