AI - BIBM』21 Best Paper | CliniQG4QA：為臨床問答領域生成不同的問題－鑽石舞台

Feb 11 Fri 2022 10:31
AI - BIBM』21 Best Paper | CliniQG4QA：為臨床問答領域生成不同的問題

歡迎向本公眾號投稿文獻解讀類原創文章，投稿郵箱：1298332329@qq.com，請將稿件以附件形式發送。海內外招生、訪學、招聘等稿件，請聯繫微信：17300921889。

作者 | 李萬相

審核 | 付海濤

今天給大家介紹俄亥俄州立大學Xiang Yue, Xinliang Frederick Zhang等人發表在BIBM2021上，並榮獲了「Best Paper Award」的一篇文章《CliniQG4QA: Generating Diverse Questions for Domain Adaptation of Clinical Question Answering》。為解決在一個語料庫上訓練的臨床問答（QA）模型無法泛化到來自不同機構或不同患者群體新臨床文本中的問題，本文提出了一個簡單有效的框架：CliniQG4QA，它利用問題生成（QG）在新的臨床環境中生成QA對，並在不需要手動注釋的情況下增強QA模型。

1.摘要

如下圖所示，臨床問答（QA）是指根據給定的問題從患者電子病歷（EMR）的臨床文本中提取文本範圍（一個句子或多個句子）作為答案，是協助臨床從業者的重要方法。問題生成（QG）是指自動生成以給定句子或段落為答案的問題。

本文提出的框架CliniQG4QA，利用QG在目標上下文中生成臨床QA對並用於訓練QA模型，解決新臨床環境中的數據與訓練數據不同，導致已有模型的表現情況較差等問題。其中QG模型通過重用源上下文的QA對作為訓練數據構建，同時採用答案證據提取器（AEE）來提取有意義的文本跨度。為解決現有的QG模型無法生成多樣化問題的局限性，本文引入了一個問題短語預測（QPP）模塊，將答案證據作為輸入並依次預測潛在的問題短語（例如，「What treatment」，「How often」等）。

2.模型

2.1模型框架

CliniQG4QA框架如上圖所示，首先利用AEE從未標記的文檔中提取有意義的文本跨度，然後使用QPP模塊來預測一組問題短語，解決當前問題多樣化的局限性，最後根據QPP預測的特定問題短語，使用QG模型補全問題的其餘部分。

2.2答案證據提取器 (AEE)

為了模仿人類創建問題的過程，本文實現了一個答案證據提取器從文檔中提取可能作為答案證據的文本跨度。針對臨床QA任務，較長的文本跨度通常包含更豐富的信息，相較於短文本跨度更適合作為答案證據。

給定一個文檔P=，目標是提取潛在的證據序列，由於答案證據並不總是一個句子，本文將其視為序列標記任務，並採用常用的序列標記方案：BIO標記來標記答案證據。

首先，採用ClinicalBERT模型對文檔進行編碼：

遵循序列標記任務中BERT模型的相同範例，在ClinicalBERT輸出的隱藏狀態上使用一個線性層，然後採用softmax函數來進行分類：

為了確保提取的證據有意義，減少由於臨床文本具有較多無信息語言，造成答案證據存在斷句的情況，本文設計了「merge-and-drop」的啟發式規則，即對於每個提取的證據候選者，檢查提取證據的長度，如果長度大於閾值η，則保留這個證據；否則計算當前候選證據和另一個最近的候選證據之間的長度（距離），如果長度小於閾值γ，則將這兩個的證據合併；否則，放棄這個過短的證據。

2.3問題短語預測（QPP）

為解決現有的QG模型生成有限類型問題的局限性，本文引入了問題短語預測模塊，使現有QG模型的問題生成多樣化。

用表示訓練數據中長度為l的所有可用問題短語的詞彙表，並用表示詞彙表的大小。對於給定的答案證據a，QPP的目標是映射，其中表示中的被預測為證據a的疑問句。本文將該任務視為序列預測問題，並採用具有注意力機制的seq2seq模型來預測問題短語序列（例如，「What treatment」（）→「How often」（）→「What dosage」（），|s| = 3）。

2.4訓練

在預訓練階段，首先通過最小化負對數似然損失來訓練答案證據提取器（AEE）模塊：

然後對於問題短語預測（QPP）模塊，給定答案證據a，預測問題短語序列y並進行最小化計算：

最後通過最小化訓練QG模型：

在訓練階段，對於未標記的目標臨床文檔，首先提取答案證據，然後採用QPP使QG模型生成不同的問題，最後在生成的目標文檔QA對上訓練QA模型：

3.實驗

3.1實驗數據

由於臨床領域很少有公開可用的QA數據集，本文基於MIMIC-III臨床文本進行採樣和提取答案，通過QG模型生成問題，並在專家的幫助下，得到975個由QG模型生成經專家驗證的問題（HV）和312個由專家新創建的問題（HG），共1287個QA對。本文將emrQA作為源數據集，將標註的MIMIC-III QA數據集作為目標數據來進行接下來的實驗。

3.2實驗設置

本文使用NQG、NQG++、BERT-SQG三個基本QG模型，DocReader和ClinicalBERT兩個基本QA模型實例化CliniQG4QA框架，並將Top-k和Nucleus採樣作為實驗中的代表性採樣策略。

為了研究不同QG對QA的有效性，本文考慮了基本QG模型的以下變體：（1）基本模型：貪婪搜索推理；（2）Base Model + Beam Search: 用Beam Search的beam size K來推理，保留top K個beams（K=3）；（3）Base Model + Top-k抽樣：從top-k個token（k=20）抽樣推斷；（4） Base Model + Nucleus抽樣：從top-p個token抽樣推斷（p=0.95）；（5） Base Model + QPP：對QPP模塊和Base模型進行貪婪搜索的推理。

最後採用精確匹配（EM：與真實答案完全匹配的預測百分比）和F1（預測和真實答案之間的平均重疊）作為實驗的評估指標。

3.3實驗結果

如下表所示，對比使用DocReader和ClinicalBERT兩種QA模型在MIMIC-III測試集上的性能可以發現，Beam Search和採樣策略可以在一定程度上提高生成問題的多樣性，導致QA模型的改進，但本文提出的QPP模塊可以更大範圍地提高QA性能。

考慮生成QA語料庫時的三個主要因素：文檔數量、每個文檔的答案證據數量以及每個答案證據生成的問題數量的影響，從下圖可以得到，在QA語料庫生成期間使用更多文檔和更多答案證據時，性能穩步提高，這表明看到的上下文數量對於提高QA性能至關重要；同時隨着每個證據生成的問題數量的增加，性能普遍上升。這表明多個不同的問題對於提高QA性能同樣重要。

3.4 消融實驗