歡迎向本公眾號投稿文獻解讀類原創文章,投稿郵箱:1298332329@qq.com,請將稿件以附件形式發送。海內外招生、訪學、招聘等稿件,請聯繫微信:17300921889。
編譯 | 王紫嫣
審核| 熊展坤
今天給大家介紹的是來自香港城市大學黃家駿教授2021年11月發表在BIB上的一篇文章。EGFI: drug–drug interaction extraction and generation with fusion of enriched entity and sentence information.
文獻數量的增長帶來了豐富的生物醫學知識,其中藥物藥物相互作用是一類重要的信息,但是,手動從大規模的文獻中提取藥物相互作用比較困難,所以發展生物文本信息提取技術很有必要。該文章提出了一個模型——EGFI,該模型可以從大規模醫學文獻文本數據中提取和整合藥物相互作用,並預測藥物藥物關係類型。模型的主要創新如下
1)由於預訓練語料庫和目標語料庫的數據分布不同,單獨對BioBERT進行微調可能不適用於特定的數據集。EGFI在BioBERT後創新增加了self-attention mechanism和BiGRU用於更好地完成當前任務。
2)由於有標註的文本數據相對較少,有監督學習無法得到很好的效果,所以本文使用GPT-2來進行文本生成,增加文本數據量。

數據集使用DDIs 2013dataset。這是一個人工注釋的語料庫,由DrugBank中的792篇文本和233篇Mediline摘要組成。其中有18502種藥理物質和5028種已注釋DDI。藥理物質被分為4類:藥物(非專利藥物);品牌(貿易藥物);組(藥物類別);drug-n(未批准供人使用的活性物質)。DDI有四種關係類型的單獨句子注釋:機制(描述交互發生的方式)、效果(描述交互的結果)、建議(DDI建議)和int(DDI不提供任何信息)。?還為中性句提供了假「否定」類型。
方法
圖1概述了自動提取和生成框架——EGFI的結構。該框架的輸入是標註了藥物相互作用和藥物類型的句子。EGFI由分類和生成兩部分組成。
輸入表示EGFI將邊界和類型信息融合到句子中。本文構建如下句子結構:
『Only <e13> ibogaine </e13> enhances <e20> cocaine </e20> -induced increases in accumbal dopamine.』
其中e表示藥物實體,第二位數字表示句子中的第幾個實體,第三位數字表示實體類型(0: drug, 1: brand, 2: group, 3: drug_n)。
分類部分在分類部分,本文模型將豐富的句子輸入BioBERT以捕獲語義信息和句子嵌入。為了將模型轉換為目標數據,本文在BioBERT後增加了多頭自注意機制和packed BiGRU、完全連接層來構建句子和實體的深層語義表示。其中,EGFI採用多頭自注意來捕獲單詞之間隱藏的長、短依賴信息,並採用packed BiGRU來將批量可變長度序列進行填充,得到相同長度的序列信息。而且,EGFI還採用了CLS信息。CLS是BERT中輸入序列頭部的一個特殊分類標記。CLS具有固定的embedding和位置embedding,這意味着這個特殊標記本身沒有信息,但它同時又是由這個句子中的所有其他單詞推斷出來的,因此可以聚合單詞表示,包含輸入序列學習後的信息。
EGFI將實體表示向量E1、E2和paked BiGRU 的序列表示向量拼接起來。考慮到深度模型的不同層可以學習輸入句子的不同層次的語義信息。EGFI還結合了包含淺層語義的BioBERT CLS的序列。之後,EGFI使用SoftMax分類器計算一對實體之間關係的可能性。
生成部分在生成部分,作者將豐富的句子輸入BioGPT-2生成句子。然後,根據過濾規則選擇生成的句子。過濾後的句子被輸入到可訓練的分類器(上面提到的分類部分),以獲得高質量的句子作為文獻支持。
結果
表2顯示了EGFI和其他DDI提取模型在DDI 2013數據集上的性能。EGFI的精確度(P)、召回率(R)和F1分別達到84.2%、83.5%和83.9%,優於其他基線方法。與基於CNN和RNN的模型相比,EGFI利用預訓練模型獲得了豐富的句子和實體表示。不僅如此,EGFI還融合了實體的位置和類型信息,豐富了句子的表示,使分類器能夠學習到儘可能多的知識。

為了研究方法中各個改進部分對EGFI性能的影響,本文進行了EGFI的消融實驗。實驗結果如表3所示。本文發現,如果去除EGFI的任何部分,性能總是會下降。這意味着在EGFI中,每個改進部分都能夠有效的促進模型的性能。
這項工作提出了EGFI,這是一個用於DDIs信息提取和生成的智能機器學習框架。EGFI的分類部分可以比以前的其他模型更準確地提取藥物之間的相互作用,並且EGFI的準確率很高,具有從大量原始文本中提取關係的能力。
文章地址
https://arxiv.fenshishang.com/ftp/arxiv/papers/2101/2101.09914.pdf
代碼地址
https://github.com/Layne-Huang/EGFI


掃描二維碼獲取
更多精彩
AIinGraph

點個在看+贊支持一下唄