歡迎向本公眾號投稿文獻解讀類原創文章,投稿郵箱:1298332329@qq.com,請將稿件以附件形式發送。海內外招生、訪學、招聘等稿件,請聯繫微信:17300921889。
作者| 王郅巍
審核| 付海濤
今天給大家介紹的是來自芝加哥豐田計算技術研究所的許錦波教授團隊發表在Briefings in Bioinformatics上的文章"Accurate protein function prediction via graph attention networks with predicted structure information".
1.摘要
基於實驗的蛋白質功能注釋並不能隨着快速增長的序列數據庫而擴展,目前只有一小部分 (<0.1%) 蛋白質序列具有通過實驗確定的功能注釋;基於計算的方法雖可以快速預測蛋白質功能,其準確性卻不盡人意。鑑於近年來在蛋白質結構預測和蛋白質語言模型方面的突破性進展,本文提出了一種能利用預測的結構信息和蛋白質序列嵌入來顯著改善蛋白質功能預測能力的圖注意力網絡——GAT-GO模型。實驗結果表明,GAT-GO的性能遠優於最新的基於序列和結構的深度學習方法。
2.模型
GAT-GO由三個主要模塊組成:
卷積神經網絡(CNN):以序列特徵和殘基序列嵌入作為輸入來生成每個殘基特徵表示;
圖注意力網絡(GAT):以預測的接觸圖和CNN生成的表示向量作為輸入,每個GAT層後有一個基於注意力的拓撲池化層,在GAT的末端有一個全局池化層提取蛋白質表示;
全連接分類器(Dense Classifier):根據GAT生成的表示和蛋白質序列嵌入來預測蛋白質的功能。
2.1卷積神經網絡(CNN)本文利用頻域卷積的一階近似來聚合相鄰節點表示以進行特徵學習:
其中,為度矩陣(),為具有自環的輸入接觸圖鄰接矩陣,為第l層的圖表示,為可訓練權重。
2.2圖注意力網絡(GAT)GAT旨在通過自注意力機制來參數化特徵聚合過程以提高頻域卷積的靈活性和能力,具體步驟如下:
1. GAT對所有節點對進行重要性評分:
其中,是節點在第層的隱藏表示,是第層的可訓練權重;本文中,
2. 在softmax歸一化上使用掩碼注意力分數注入圖結構信息:
其中,為節點的鄰域;
3. 更新每個節點的隱藏表示:
其中,
2.3 全連接分類器(Dense Classifier)
密集分類器結合學習到的序列特徵和蛋白質序列嵌入來預測蛋白質功能。默認情況下,GAT-GO使用RaptorX預測的接觸圖和ESM-1b生成的蛋白質嵌入。
3.實驗
本文使用指標和評估模型在三個基因本體(MFO、BPO、CCO)上的性能。其中,衡量模型在測試蛋白質中檢索相關功能注釋的效果,衡量所有GO term的預測結果的精確率與召回率。
3.1GAT-GO改進蛋白質功能預測本文在PDB-cdhit數據集上測試GAT-GO,並將其與僅基於序列的方法進行比較,結果表明,GAT-GO在三個基因本體上的性能都最優秀:
不同於以往實驗利用時間門控數據集(time-gated temporal datasets)評估模型的泛化性,本文採用五個不同的序列一致性閾值來生成訓練集和測試集,並比較GAT-GO與BLAST、作者自發實現的的1D-CNN(僅從原始序列預測蛋白質功能)和1D-ResNet(根據序列特徵和蛋白質序列嵌入預測蛋白質功能):
結果表明,幾乎所有測試方法的性能在序列一致情況下都有所提高(BLAST在低序列一致性區域表現不佳),無論閾值多少,GAT-GO的性能都遠優於其他方法。
3.3預測接觸圖和序列嵌入改善蛋白質功能預測為深入研究單個因素的貢獻,本文評估了具有不同特徵組合的深度模型(1D ResNet、GCN和GAT-GO)在PDB-cdhit 測試集上的性能:
結果表明,1D ResNet和GAT-GO都可以利用蛋白質序列嵌入以改進功能預測。(更多對比詳見原文Supplementary data)
3.4顯式結構信息修正了更長序列和高特異性GO term的功能解釋為更好理解預測的殘基接觸圖如何改善蛋白質功能預測,本文將GAT-GO與ResNet進行比較(兩者都具有相同的輸入特徵集,只是ResNet不使用預測的殘基接觸圖)。為衡量GAT-GO如何提高預測精度,本文計算了GAT-GO和ResNet在每個測試序列上的精度差異,並研究其與序列長度的關係:
結果表明,序列越長,預測的結構信息對最終預測精度的影響越大;
使用預測的結構信息還可以提高具有高特異性的GO term的預測準確性:
結果表明,預測的殘基接觸圖對具有高IC(IC>12)的GO term的預測效果起到幫助作用。
4.總結
本文提出了一種基於結構的深度學習方法GAT-GO來集成預測殘基接觸圖、蛋白質嵌入和序列特徵以進行蛋白質功能預測。關於該方法,本文總結如下要點:
1. 即使在測試蛋白質與訓練蛋白質不相似的情況下,GAT-GO的性能也遠優於當前最先進的基於結構和基於序列的方法;
2. GAT-GO同時利用預測的蛋白質結構信息和蛋白質語言模型進行預測;
3. GAT是一種強大的深度模型,可以聯合編碼蛋白質結構和序列信息。
為進一步改進基於結構的蛋白質功能預測,本文提出可使用預測的殘基距離圖或3D結構坐標(而非預測的殘基接觸),或其他基於網絡的蛋白質特徵(如PPI網絡)作為結構表示。
參考文獻

https://doi.org/10.1093/bib/bbab502


掃描二維碼獲取
更多精彩
AIinGraph

點個在看+贊支持一下唄