close

機器之心專欄

作者:陳江捷、徐銳

來自復旦大學、字節跳動人工智能實驗室等機構的研究者提出E-KAR 數據集,這是首個可解釋的知識密集型類比推理數據集,相關工作已經被 ACL 2022 Findings 接收。
類比在人類認知中占有重要地位,通過類比可以發現新的見解和證明日常的推理,比如老師在課堂上用煮熟的雞蛋類比地球的構造,使得學生很快理解了不能親自體驗的知識。由於在多個領域有着獨特價值,類比成為了人工智能研究領域的重要問題。

在 NLP 中,我們比較熟悉的是以多選題形式出現的詞類比識別問題,然而現有的詞類比數據集關注簡單的二元類比關係,並且缺乏用於屆時類比推理過程的標註信息。因此,解答這一類問題並不能揭示神經網絡模型類比推理的內在過程,這對探究類比的內部性質來說是不利的[6]。我們亟需一類更困難的、可解釋的類比推理數據集。

本文介紹來自復旦大學、字節跳動人工智能實驗室等機構研究者的最新工作 E-KAR,相關工作已經被 ACL 2022 Findings 接收。E-KAR 是首個可解釋的知識密集型類比推理數據集,由 1,655 個(中文)和 1,251 個(英文)來自中國公務員考試的問題組成,並提出了類比推理問題的兩個基準任務,用於教會和驗證模型學習類比的能力。


• 論文鏈接:https://arxiv.org/abs/2203.08480
• 項目主頁:https://ekar-leaderboard.github.io

研究背景

簡單類比

現有的類比推理數據集,多以選擇題的形式出現,下圖是來自 BATS 數據集 [3] 的一個例子,選項分別是 「馬克思」 比「德國人」、「孔子」比 「俄羅斯人」、「凱撒」 比「美國人」和 「柏拉圖」 比「加拿大人」,需要選擇的是與問題:「牛頓」比 「英國人」 相同對應關係的選項。

圖 1 BATS 數據集中的示例

解決這種簡單的類比問題,一種有效的方法是使用像 Word2Vec[2]這樣靜態的詞嵌入,例如我們都很熟悉的這個方程式:

圖 2 著名的詞嵌入方程式(國王 - 男人 + 女人 = 王后)

這一類方法通常認為兩個詞語之間的關係可以通過詞嵌入的向量運算來估計,這被稱為線性類比(Linear Analogy)[4]。這種方法行之有效的原因之一是,目前的類比推理數據集通常被設計為評估線性類比屬性。這類數據集富含簡單的二元關係,如詞彙、形態和簡單的語義關係,像前面 「牛頓」 比「英國人」的例子,揭示的是 「人物」 和「國籍」的關係。此外,它們也是不可解釋的,因此無法揭示實際的類似人類的類比推理過程。

複雜類比

比起這種相對簡單的線性類比,該研究專注於更加複雜的類比推理問題(Complex Analogy),這需要理解更多複雜的詞語之間的關係。針對於此,本文提出了 E-KAR 數據集,參考一些類比相關的權威書籍和其他定義,完成這些問題還需要有一系列推理過程和背景知識,下圖是其中的一個例子(讀者可以嘗試完成):

圖 3 E-KAR 數據集中的示例

E-KAR 數據集

E-KAR 數據集是首個可解釋的類比推理數據集,它有三個特點:挑戰性、可解釋性和雙語性。

挑戰性

E-KAR 具有挑戰性,因為它來源於中國的公務員考試,這是一項對考生的批判性思維和解決問題能力的綜合測試,想要解決其中的類比推理問題,需要考生理解選項中的關係,這要求一定的推理能力和背景知識,特別是常識、事實和文化知識,以及知道為什麼一個事實被否定,例如汽車不是由輪胎製造的,因為汽車是由輪胎組成的。

可解釋性

E-KAR 的第二個特點是可解釋性,每條數據的問題和選項都有對應的人工注釋的自由文本解釋。但首先我們需要搞清楚:如何使類比推理可解釋?

為了回答這個問題,首先需要明白人類是如何進行類比推理的。根據一些認知心理學的研究[1],類比推理遵循一個結構映射 (structure-mapping) 過程。這個過程包含歸納,映射與檢驗三個步驟。我們以 E-KAR 中的一組數據為例(見圖 4):

1. 歸納 (Abduction):對於源域 (source domain) 與目標域 (target domain) 來說,首先設想出一個源結構 (source structure) ,這個結構也可能適用於目標域,在該數據集中,源域是問題,而目標域是每個選項,源結構是問題詞之間的隱含關係,在例子中則是茶壺和茶杯都是盛放茶葉的容器,茶壺將茶葉輸送到茶杯中;
2. 映射 (Mapping):接着將這種結構映射到目標域,也就是說,將每個選項的詞映射到查詢中的源結構中;
3. 檢驗 (Validation):最後,檢查映射的有效性,並解釋映射是否正確。在示例中,只有選項 C :"人才:學校:企業" 滿足問題中的源結構。因為學校和企業是人才的組織,學校將人才運送到企業。

圖 4 類比推理中的結構映射

因此,該研究將結構映射的過程改寫為自然語言文本,從而使類比推理的過程可解釋,也就是 E-KAR 的可解釋性。

雙語性

該研究利用機翻加人工後編輯的方式,將中文版的 E-KAR 翻譯為了英文版本。在英文數據中,研究者手動刪除了那些具有中文特徵的數據(成語、典故等),以更好的方便非中文背景的研究者。由於這些數據具有高度的中國文化背景,研究者在中文數據集中保留了這部分數據以促進中文 NLP 的發展。最後,得到了 1655 條中文數據集和 1251 條英文數據集,各自有 8275 句和 6255 句自然語言形式的解釋文本。

任務設置

E-KAR 的最終目標是使得模型能夠做出正確的選擇,同時產生合理的解釋。為此,該研究在 E-KAR 中定義了兩個共享任務:類比推理問答任務(Question Answering, QA)和類比解釋生成任務(Explanation Generation, EG):

類比推理問答任務 (QA):即讓模型去完成 E-KAR 中的問題,輸入為問題和四個選項,輸出為正確的答案,最終結果用準確率進行評估。

類比解釋生成任務 (EG):即生成問題和每個候選答案的相應解釋,除了基礎的文本生成指標外,該研究主要使用一種間接的指標進行評估:加入生成解釋後的類比回答任務準確率,即將生成的解釋作為類比推理問答任務 (QA) 額外的輸入時後者準確率的變化情況。


實驗與結論

該研究基於 E-KAR 在這兩個任務上進行了一些初步實驗,發現:

1. 詞嵌入與語言模型在複雜類比上的表現都不好

該研究首先基於詞嵌入和預訓練語言模型 (BERT、RoBERTa) 進行了類比推理問答任務 (QA) 的實驗,結果如圖 5 所示,這表明無論是靜態詞嵌入還是目前最先進的語言模型,要想完成 E-KAR 這種複雜和知識密集型的類比推理任務都很困難。

圖 5 詞嵌入在 E-KAR 和簡單類比數據集上的準確率

作為對比,人類能夠達到 78% 的準確率,而表現最好的語言模型 (RoBERTa large) 只能達到 50%(圖 6)。

圖 6 詞嵌入、語言模型和人類在簡單類比與複雜類比上的準確率對比

類比問答錯誤分析

該研究對結果進行了錯誤分析(圖 7),發現大多數錯誤發生在語義關係上,如 is_a、part_of、juxtaposition_of 等。這些類型的關係通常需要大量的常識和事實知識的參與。

圖 7 類比推理問答任務 (QA) 錯誤分析

2. 語言模型在可解釋的類比推理上表現不好

該研究的類比解釋生成可以生成每個問題和選項的對應解釋,再將這些解釋用於類比推理問答任務 (QA),這也是體現可解釋性的關鍵步驟,然而一系列實驗表明,語言模型並不能生成對類比推理問答任務(QA) 很有幫助的解釋。

首先,用該研究事先標註好的解釋去作為額外的輸入,能幫助類比推理問答任務 (QA) 達到接近完美準確率。然而替換成生成的解釋時,結果卻差很多(圖 8)。

圖 8 事先標註的解釋與模型生成的解釋對 QA 任務的幫助對比

解釋生成錯誤分析

該研究也對類比解釋生成任務 (EG) 進行了錯誤分析(圖 9),發現問題主要出現在這三個方面:

1. 無法生成否定的事實;
2. 生成的是與事實不符的句子;
3. 生成結果偏向於常見的模式。

其中,該研究對否定詞的生成特別感興趣。結果顯示約有 90% 的錯誤選項的人工標註解釋,包含了否定詞 "不",而在生成的解釋中,這一數字則下降到約 20%。這似乎表明目前的生成模型不知道如何生成一個被否定但卻是正確的事實。由於許多解釋含有否定詞,研究者探討否定詞的生成是否影響了模型的判斷,為此該研究刪除了測試集中含有否定詞 NOT 的句子,結果發現準確率只下降了一點。因此,另一個結論是,當給出人工標註的解釋時,類比推理問答 (QA) 任務的模型似乎並不偏向於否定詞。

圖 9 展示了一個基本涵蓋了上述幾乎所有錯誤類型的例子。代表問題的解釋,代表選項 A 的解釋,表示為模型 (BART large) 生成的,不帶的是事先標註好的,可以看到,對於否定句,模型不知道鹽和氯化鈉都不是只由一種元素組成的,生成的解釋偏向於 「A 是 B」 的模式。

圖 9 E-KAR 數據集中的示例 2

總結

在這篇文章中,研究者提出了一個新的類比推理數據集 E-KAR,它具有挑戰性,雙語性和可解釋性,同時研究者定義了兩個該數據集的共享任務:類比推理問答任務 (QA) 和類比解釋生成任務 (EG) ,用於教會模型如何學會類比的能力。該研究希望這項工作能補充現有的自然語言推理研究,特別是類比推理和可解釋的 NLP 的相關研究。

E-KAR 數據集中很多題目依賴於外部知識,需要對常識、百科和文化知識有一定理解,因此如何注入外部知識提升推理能力是未來的一大方向。注入外部知識可以通過自由文本、知識圖譜等形式,代替解釋作為輸入的一部分,模型可以分為檢索部分和問答部分。檢索部分負責在外部知識庫中搜索相關詞組,並重構其相關知識的表示,問答部分負責融合檢索到的外部知識與原輸入,提升模型推理能力。

參考文獻

1.Gerhard Minnameier. 2010. Abduction, induction, and analogy. In Model-based reasoning in science and technology, pages 107–119. Springer.
2.Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
3.Gladkova A, Drozd A, Matsuoka S. Analogy-based detection of morphological and semantic relations with word embeddings: what works and what doesn’t[C]//Proceedings of the NAACL Student Research Workshop. 2016: 8-15.
4.Ethayarajh K, Duvenaud D, Hirst G. Towards understanding linear word analogies[J]. arXiv preprint arXiv:1810.04882, 2018.
5.Ushio A, Espinosa-Anke L, Schockaert S, et al. BERT is to NLP what AlexNet is to CV: can pre-trained language models identify analogies?[J]. arXiv preprint arXiv:2105.04949, 2021.

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()