close

歡迎向本公眾號投稿文獻解讀類原創文章,投稿郵箱:1298332329@qq.com,請將稿件以附件形式發送。海內外招生、訪學、招聘等稿件,請聯繫微信:17300921889。

作者| 王紫嫣

審核| 熊展坤

今天給大家介紹的是韓國首爾大學Sun Kim教授2021年發表在COMPUTATIONAL AND STRUCTURAL BIOTECHNOLOGY JOURNAL上的一篇文章。該文章適合做化合物-蛋白質關聯預測的新手閱讀,有利於幫助理解本領域中所用到的數據、模型以及存在的問題等知識,當然也適合已經開始相關研究人員進行查漏補缺。

Part1摘要

近年來,化合物蛋白質相互作用(CPI)的計算方法有了快速的進展。在這篇綜述中,我們全面回顧了與CPI計算預測相關的主題。本文的目標是提供與CPI相關的主題綜述,如數據、格式、表示、計算模型,以便研究人員能夠充分利用這些資源開發新的預測方法。從數據格式和編碼方案的角度討論了來自各種資源的化合物和蛋白質數據。對於CPI方法,我們將預測方法分為五類,從傳統的機器學習技術到最先進的深度學習技術。最後,我們討論了新興的機器學習主題,以幫助實驗和計算科學家利用當前的知識和策略來開發更強大和準確的CPI預測方法。

Part2數據格式和編碼方案2.1化合物(小分子)

化合物可以以人類可讀的格式描述,如字符串、圖形或圖像。

最廣泛使用的字符串格式是Simplified Molecular-Input Line-Entry System(SMILES)。如圖 a)。還有其他類型的字符串格式表示,如SMARTS和SELFIES,可以更好地突出顯示子結構或鏡像語義約束。SMILES可以被編碼成獨熱和多熱向量。另一種編碼方式是Word2vec,它通過將字符映射到實數向量來構建單詞嵌入。與RNN等順序模型相結合,word2vec可以通過將固定長度的字符視為「一個單詞」來生成整個化學句子的嵌入。

本構子結構或常見官能團經常出現在化合物中,它們用於構建化學指紋,如圖 b),將化合物描述為其子結構的布爾表示。有幾種方法可以生成不同的指紋方案,如ECFP、Morgan、PubChem和MACCS。我們可以將這些化學指紋生成方案分為基於拓撲的方案(Morgan、ECFP、2D藥效團等)和基於SMARTS的方案(MACC、PubChem等)。

基於圖的表示,如圖 c),如編織(weave)或者圖伸進網絡指紋,最近已成功地反映了化學性質。為了使用基於圖的學習策略,化合物需要轉換為圖,通常是原子/鍵信息圖的鄰接矩陣表示。然後將這些送入圖卷積神經網絡(GCNs)。

2.2 靶蛋白

蛋白質基本上是一個氨基酸殘基序列,是高度保守的進化信息。因此,考慮到蛋白質的進化、結構特性或與onehot、word2vec或基於k-mer的方法的相互相似性,可以順序編碼蛋白質。其中,獨熱編碼是將字符轉換為二進制位向量。獨熱編碼方案很流行,因為深度學習模型需要類似網格的數字輸入。對於蛋白質結構,通常將蛋白質結構轉換為具有化學屬性的空間圖,其中包含在預設距離內的殘基節點和兩個殘基之間的邊。蛋白質的結構信息可以是坐標、靜電性質或單個氨基酸水平的表面積。UniProt和蛋白質數據庫(PDB)分別是蛋白質序列和結構信息的主要來源。PDB包含化合物-蛋白關聯信息,包括配體特異性空間構象。PDB的一個問題是,具有結構特徵的蛋白質的數量遠小於確定氨基酸序列的蛋白質。因此,利用蛋白質結構信息進行計算機輔助藥物設計(CADD)是有限的。然而,AlphaFold和AlphaFold2證明,利用蛋白質進化信息和蛋白質結構信息可以非常有效地從蛋白質序列預測蛋白質結構。最近這一顯著進步將對CADD產生深遠影響。

Part3CPI預測數據庫

3.1 以化合物為中心的數據庫(Chemistry-centric database)

作為一個以化學為中心的數據庫,PubChem包含化合物的2D和3D結構信息以及來自各種生物/化學實驗和文獻的相互作用蛋白質信息。它還具有881種被廣泛用於將化學物質轉換成可學習模式的化學結構的基準指紋。ChEMBL是化學信息學中最全面的數據庫之一,包含大量的CPI信息,包括潛在的可藥用化合物。DrugBank提供關於藥物的更詳細信息,包括批准、實驗、營養等注釋。利用這些注釋信息,Zeng等人構建了一個針對GPCR蛋白質的靶向藥物再利用的數據集。Zeng等人還利用藥物相互作用、藥物適應症和藥庫批准的FDA來構建藥物基因疾病網。DUD-E提供了與活性分子在物理性質上相似但在拓撲結構上不同的活性相互作用分子和誘餌分子集。這些活性化合物和誘餌可以用作CPI預測的正樣本和負樣本。在DUD-E中,提供了交互標籤和綁定親和力。

3.2以蛋白質為中心的數據庫(Protein-centric database)

UniProt是一個具有代表性的蛋白質序列數據庫,在Swiss-Prot(版本:UniProtKB 2020_05)中匯編了563552個已審查的蛋白質。PDB匯集了大量通過X射線結晶學或其他方法獲得的3D結構數據。PDBbind提供了一個全面的實驗測量的蛋白質和配體化合物之間的結合親和力數據。Ballester和Mitchell提出了一種新的基於機器學習的評分函數,並將PDBbind基準用於驗證CPI預測。然而,與AA序列的數量相比,蛋白質3D結構數據要少得多,部分原因是建立結晶的技術困難。此外,化合物-蛋白質相互作用通常發生在蛋白質表面名為「口袋」的首選位置。利用蛋白質袋信息可以產生更精確的CPI預測。在Torng和Altman的一項工作中,將蛋白質袋視為關鍵殘基的圖,使用FEATURE軟件將480種理化性質模擬為蛋白質編碼向量,對局部蛋白質袋進行建模。

3.3 綜合數據庫(Integrateddatabase)

有一些數據庫提供了綜合注釋和額外的整理工作。BindingDB從實驗中收集詳細的binding數據,如酶抑制或量熱法,並整理PubChem和ChEMBL的文獻信息。Gao等人利用BindingDB的IC50值,對39747條正記錄和31218條負記錄的CPI信息進行了匯編。
Part4所有CPI預測方法

4.1基於樹的方法

常見的基於樹的方法有決策樹(DT)、隨機森林(RF)和 tree-boosting算法。除了簡單地使用RF作為模型預測之外,Zeng等人還提出了一種基於網絡的計算框架,稱為AOPEDF,用於CPI預測。他們獨特地整合了15個網絡,包括化學、基因組、表型、藥物、蛋白質和疾病之間的網絡概況,構建了一個異構網絡。網絡特徵被用作級聯深度森林分類器的輸入,以推斷新的藥物-靶標相互作用。此外,使用貝葉斯方法作為先驗,Li等人建立了基於貝葉斯加性回歸樹(BART)的模型,該模型提供了可靠的結果後驗平均值,而不是簡單地生成用於預測的二元答案。XGBoost是一種tree boosting system,Mahmud等人使用XGBoost對簡化特徵進行訓練,以訓練CPI預測的計算模型,其結果表明XGBoost分類器優於其他三種學習方法。

4.2基於網絡的方法和基於核的方法

一種廣泛使用的特徵生成方法是在圖上使用隨機遊走,從而生成許多子圖作為特徵。一旦確定了特徵,就需要通過機器學習方法,如支持向量機(SVM)、基於套索回歸的分類器和典型相關分析來構建真實CPI和非CPI之間的決策邊界。由於CPI的決策邊界可能很複雜,因此通常使用核技巧或基於核的方法來處理非線性決策邊界。長期以來,基於網絡和基於核的最大似然法一直被用於CPI預測。許多計算方法利用化合物和蛋白質之間已知/已識別邊緣的CPI網絡來識別新靶點。對於網絡層面的CPI預測,Lo等人開發了一個評分函數,並使用了「化學類型」的概念,通過測量化合物基於指紋的成對相似性來減小CPI空間的大小。這個問題的搜索空間稱為「化學空間」,用於整合化學空間和目標空間。通過建立具有已知相互作用的CPI空間,預測新的相互作用。Chen等人在CPI空間爆炸方面做了一項開創性的工作,他們提出了基於網絡的隨機行走,並在藥物和靶蛋白的兩個異構網絡(NRWRH)上重新啟動。他們通過整合來自四個不同數據庫(EGG BRITE、BRENDA、SuperTarget和DrugBank數據庫的同質化合物/蛋白質實體之間的相似性信息和化合物-蛋白質相互作用,構建了一個網絡,其中有四個單獨的蛋白質亞類(酶、離子通道、GPCR和核受體)分別處理。這項工作為CPI提供了一個新的視角,即考慮鄰近實體的拓撲重要性。另一項有趣的研究利用指紋預測藥物反應來測量。
通常使用基於核的方法來確定CPI的複雜非線性決策邊界,而不是按原樣使用指紋。一種典型的基於核的方法是支持向量機(SVM),它將高維空間中的數據點映射到特徵空間,然後在特徵空間中構造決策邊界。基於SVM的方法已廣泛用於CPI預測。儘管支持向量機本身是一種強大的分類方法,但特徵(此處為化學/蛋白質特徵)的選擇對於構造決策邊界和解釋性非常重要。Tabei等人使用化學指紋和蛋白質結構域作為特徵。Yu等人選擇描述方法從氨基酸序列中提取蛋白質特徵,以表示結構和物理化學信息。ML方法,如LASSO(Least Absolute Shrinkage 和Selection Operator)也廣泛用於特徵提取。Shi等人提出了LASSO-DNN模型,其中使用多個LASSO模型集成蛋白質和化合物特徵的不同特徵集組合,減少不太重要特徵的影響。
4.3深度學習-RNN和CNN

遞歸神經網絡(RNN)是一種經典的前饋神經網絡,它使用一系列構建塊或狀態來處理一系列輸入。對於CPI,化合物可以用順序格式表示,例如,SMILES和目標蛋白作為氨基酸序列。因此,序列深度學習技術被廣泛用於CPI預測。卷積神經網絡(CNN)是一類前饋神經網絡,使用一系列卷積運算和(可選)池化運算從輸入數據中提取相關特徵。CNN最初是為處理和分析圖像數據而開發的,因此CNN通常以2D格式獲取數據。當使用化合物和蛋白質的線性表示時,有必要將線性表示轉換為2D格式。對於CPI,CNN可以識別能夠相互作用的化合物和蛋白質的子序列。

循環神經網絡。RNN通過構建GO注釋和氨基酸序列的嵌入查找,將氨基酸序列的順序輸入投影到密集向量表示。考慮到三維結構中可能接近的殘基或原子之間的依賴性,Karimi等人使用基於RNN的seq2seq自動編碼器學習嵌入向量,隨後使用注意機制學習化合物和蛋白質之間的結合位點信息,同時使用卷積神經網絡(CNN)訓練CPI預測模型。LSTM是RNN的一種變體。Shin等人使用BERT模型對分子序列的類詞嵌入和位置嵌入進行建模,用於CPI預測。Transformer是另一種基於序列的方法,廣泛用於CPI預測任務。Transformer既有一個編碼器又有一個解碼器,不像BERT只有一個編碼器,所以訓練可以提高預測精度。

卷積神經網絡。Ragoza等人利用CNN對CPI進行評分,並對蛋白質-配體化合物的結構信息進行評分。此外,CNN還用於特徵提取:1D蛋白質序列編碼載體、或者分子SMILES編碼向量、或蛋白質與小分子的組合向量。Lee等人從不同長度的AA子序列中捕獲了廣義蛋白質類的局部殘留模式。為了利用蛋白質數據的進化信息,在Li等人的工作中,蛋白質序列用BLOSUM62矩陣編碼,並用CNN模塊進一步處理。將注意機制或RNN與CNN結合以實現更好的表現。然而,僅考慮一維信息在反映蛋白質的三維結構方面是有限的。在Zheng等人的工作中,蛋白質的2D距離圖用於提供蛋白質的結構信息。給定2D距離圖作為輸入,基於CNN的可視化問答(VQA)系統可用於在以分子線性符號作為查詢時生成「一對化合物和蛋白質是否相互作用」的答案。最近,為了減少數據轉換過程中的信息損失,Rifaioglu等人還將化合物的2D圖像用作輸入,以預測化合物和蛋白質之間的相互作用

4.4深度學習-基於圖的方法

化合物和蛋白質可以自然地表示為帶有化學元素或氨基酸節點的圖,節點之間有邊。使用圖形神經網絡(GNN)的方法的基本策略是分別學習一個化合物圖和一個蛋白質圖的嵌入向量,並結合兩個嵌入向量進行CPI預測。或者,可以同時學習化合物和蛋白質的嵌入載體。在各種GNN方法中,圖卷積網絡(GCN)使用相鄰節點上的卷積運算來更新中心節點。消息傳遞神經網絡(MPNN)通過邊將每個節點的信息傳播到相鄰節點,從而學習圖的拓撲結構,從而同時考慮邊和節點的特徵。

GCN用於學習分子圖的嵌入向量。Torng和Altman使用兩個圖形自動編碼器(一個用於分子圖形結構,另一個用於蛋白質口袋)來構建嵌入向量,並將其組合以確定相互作用模式。在Lim等人的工作中,蛋白質-配體化合物被視為嵌入3D圖形表示的輸入。此外,注意機制通常與GCN相結合,以提供更好的解釋性。GCN的一個局限性是GCN只考慮局部相鄰節點,難以反映全局3D結構和邊緣信息。為了克服這一限制,Karlov等人使用MPNN通過同時考慮節點和邊緣來嵌入藥物化合物。在最近的一項研究中,李等人將DL方法的集合用於CPI預測。MPNN和GWU用於生成化學圖特徵。

4.5 深度學習-新興方法

除了學習潛在表示(如自動編碼器)的DL模型外,還廣泛使用了生成模型,如變分自動編碼器(VAE)或生成對抗網絡(GAN)。自動編碼器(AE)是一種人工神經網絡模型,它有效地壓縮輸入數據,並以無監督的方式將數據重建為壓縮的簡化表示。VAE用於學習評估輸入數據分布的參數。另一方面,GAN基於博弈論,即一個網絡(生成器)生成虛假數據以欺騙另一個網絡(描述符)。

可以使用上述模型擴展輸入數據的特徵。AE使用編碼器網絡的輸出作為所需的潛在表示。GAN使用鑑別器網絡作為特徵提取網絡,而鑑別器的最後一個分類層是無用的,通常會被刪除。在Mao等人最近的一項研究中,研究人員表明GAN可以用於提取輸入序列的特徵。在GAN模型中,一個判別器網絡可用作特徵提取器,特徵提取器可分解為特徵提取器層和分類層。在這兩個組合之間,特徵提取層可以有效地學習輸入序列的潛在表示。

Part5總結5.1主要問題
對於CPI關聯,有兩個主要問題。一種是數據表示,另一種是帶有負樣本的決策邊界。
數據表示。化合物和蛋白質廣泛使用的表示形式是人類可讀的格式,如SMILES和AA序列。然而,這些人類可讀的格式通常無法攜帶關鍵信息,例如3D空間中的鄰域。因此,為CPI預測設計並嘗試了各種數據格式。代表化合物和蛋白質的方法的選擇取決於用於CPI預測的技術。例如,DL技術使用化合物和蛋白質的潛在載體表示。這是因為DL方法不是為處理化學元素和AA等符號信息而設計的。相反,DL方法生成潛在向量並結合這些潛在向量來預測CPI。DL策略的一個優點是,與化合物和蛋白質的聯合作用空間相比,CPI的數據量較小,因此嵌入向量可以在訓練數據之外具有更大的泛化能力來預測CPI。對於化合物,Sanchez Lengeling和Aspuru Guzik將分子表徵分為三類:離散圖、連續圖和加權圖。對於化合物,SMILES string是分子圖的典型一維表示,化合物的指紋可用於量化分子環境,其他表示,如庫侖矩陣或電子密度可模擬原子核之間的靜電環境。為了表示蛋白質,AA序列被廣泛使用。代替使用AA序列,許多現有的方法還通過用PSSM或BLUSOM62編碼AA序列來考慮蛋白質的進化信息。此外,具有PseAAC(Pseudo Amino Acid Composition Chou)的基於序列的特徵或具有3D蛋白質信息的基於結構的特徵可與AA序列一起使用。
帶有負樣本的決策邊界。為真正的CPI構建決策邊界需要複雜的計算方法,例如基於DL的化合物和蛋白質的潛在向量表示。除了計算方法外,在預測化合物-蛋白質關聯時過濾真正的負關聯也很重要。基於相反的否定命題,假設相似的化合物可能與相似的目標蛋白質相互作用,反之亦然,Liu等人提出了一種篩選可靠負樣本的系統方法。他們從各種化學基因組資源(例如化學指紋、副作用、序列相似性、GO注釋和蛋白質結構域)計算化學結構相似性和蛋白質結構相似性。這些相似性被整合以計算特徵差異,以便從驗證/預測的交互作用中進一步篩選負樣本。通過對經典分類器和現有預測模型的不同實驗設置,他們證明了通過他們的框架篩選出的負樣本是高度可信的,並且有助於識別CPI。
5.2可解釋學習


ML模型透視圖。從最大似然理論的角度來看,解釋性學習應考慮兩種主要方法:1)設計一種內在可解釋的算法;2) 建立一個有效的編碼方案,幫助人類對數據進行解釋,並隨後使用一組單獨的重新表示技術來幫助用戶理解算法的預測結果。(如圖)可解釋學習的一種方法是使用結構信息。PDB數據庫是提供蛋白質-配體組合共結晶信息的代表性數據庫。Torng和Altman在最近的一項工作中很好地證明了如何利用PDB數據庫。由於CPI是配體和目標蛋白一小部分之間的對接過程,作者將化合物視為圖,將目標蛋白視為口袋圖,並使用PDB數據庫從自己的程序中檢索節點特徵。在經過訓練的圖卷積層生成顯著特徵,為解釋分子對接提供原子/殘基水平的貢獻。現有工作還通過逐步縮小從GCN中提取的特徵,證明了GCN卷積濾波器的可解釋性得到了改善。
注意力機制。DL方法經常因做出黑箱決策而受到批評,因為解釋最終決策的方式很困難。注意力機制被認為是解決這一問題最有希望的方法。注意力機制基本上是通過突出顯示與預測決策最相關的特徵的權重來捕獲實例對最終分類結果的重要性。注意力廣泛用於CPI預測。具有注意機制的ML模型可以捕獲原子水平的貢獻。例如,Gao等人分別關注LSTM和GCN層中的蛋白質和化合物潛在向量。他們的方法可以對與靶蛋白相關的原子的工作進行可視化研究,從而可以表徵藥效團。Karimi等人將注意機制用於訓練模型,識別配體結合位點,並預測相應的蛋白質片段。Shin等人提出了一種分子轉換器,該轉換器通過自我注意機制將SMILES字符串建模為更好的表示向量。為了捕捉化合物子圖和蛋白質子序列之間的相互作用位點,Tsubaki等人使用GNN和CNN輸出的神經注意機制,測量CPI預測中由注意權重表示的分子-蛋白質對相互作用強度。此外,Agyemang等人利用多頭自我注意機制,通過組合各種單峰表徵,生成化合物和靶標的豐富信息表示。
5.3新興技術
數據描述。大多數CPI方法提供化學或蛋白質空間的解釋。相互作用指紋(IFP)是一種表示和分析3D蛋白質-配體化合物的方法,它編碼結合位點與一維向量之間是否存在特定相互作用。Deng等人率先使用IFP識別和聚類具有類似binding模式的對接姿勢,揭示了不同的binding關聯作用,並證明IFP對於可視化和分析CPI非常有用。受這項工作的啟發,Chupakhin等人設計了一種新型的固定大小指紋,稱為SILIRID(Simple Ligand-Receptor Interaction Descriptor)。通過將與相同AAs對應的位相加,從IFPs計算SILIRID。它由168個整數值組成,通過考慮一對AA和一個原子的八種相互作用來描述配體-受體(化合物-蛋白質)。此外,Nguyen等人詳細回顧了如何使用數學方法將高度複雜度和維度的生物分子數據轉換為特徵。
具有強化學習的生成模型。我們可以使用數據的隱藏表示為特定靶標生成新化合物。Zhavoronkov 等人開發了一個創新的軟件框架來生成DDR1激酶抑制劑的化合物。他們使用了幾種策略來探索CPI空間。首先,他們用VAE模擬DDR1激酶抑制劑的化合物空間。通過張量序列分解從Zinc Clean Leads collection中了解到的VAE的強大先驗知識指導化合物的生成。在這項工作中,VAE對化合物空間的探索受限於將目標基因空間限制在DDR1激酶。為了指導尋找商業上有效的化合物,他們使用了來自Zinc Clean Leads collection的強先驗。其次,他們使用強化學習(RL)來探索激酶抑制劑的目標基因空間,通過使用三個自組織映射(SOM)作為獎勵函數來評估VAE生成的化合物。他們開發並使用了一個名為GENTRY的搜索框架來發現盤狀結構域受體1(DDR1)的有效抑制劑,DDR1是一種與纖維化和其他疾病有關的激酶靶點。整個發現過程只用了21天。這項工作是在CPI相互作用方面探索化合物空間和靶標基因空間的一個傑出例子。在最近的其他研究中,VAE和RL被單獨使用或結合使用,以探索數據空間,從而設計出具有所需性質的化合物。
挑戰和問題。有一個名為「D3R大挑戰」的挑戰,這是一個測試化合物設計最先進方法的全球競賽,自2015年起由藥物設計數據資源組織。去年,谷歌的Deepmind開發的AlphaFold2是AlphaFold的高級版本,它證明了人工智能技術可以從AA序列高度準確地推斷蛋白質的結構。此外,選擇合適的評估指標是一個重要問題。在評分功能比較評估(CASF)中,從評分能力、排名能力、對接能力和篩選能力等方面對蛋白質-配體評分指標的性能進行了廣泛比較。
Part5原文鏈接

網址:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8008185/



掃描二維碼獲取

更多精彩

AIinGraph

本公眾號主要介紹應用於圖、知識圖譜的人工智能算法和研究進展,及其在生物信息、醫學健康領域的應用。歡迎關注本公眾號獲取領域最新文獻解讀。


點個在看+贊支持一下唄

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()