編輯 | 蘿蔔皮
深度學習 (DL) 最近在計算生物學的一項重大挑戰中取得了前所未有的進展:半個世紀以來的蛋白質結構預測問題。
在這篇綜述中,萊斯大學(Rice University)的研究人員討論了深度學習在五個廣泛領域的最新進展、局限性和未來前景:蛋白質結構預測、蛋白質功能預測、基因組工程、系統生物學和數據集成以及系統發育推斷。
他們討論了每個應用領域並涵蓋了 DL 方法的主要瓶頸,例如訓練數據、問題範圍以及在新環境中利用現有 DL 架構的能力。最後,總結了 DL 在整個生物科學領域面臨的特定主題和一般挑戰。
該綜述以「Current progress and open challenges for applying deep learning across the biosciences」為題,於 2022 年 4 月 1 日發布在《Nature Communications》。
AlphaFold2 最近在從蛋白質序列中預測蛋白質的 3D 結構方面取得了成功,這突出了迄今為止深度學習在計算生物學中最有效的應用之一。深度學習(DL)允許使用由多層非線性計算單元組成的複雜模型來查找具有多層抽象的數據表示(圖 1)。通過深度學習在廣泛的應用領域中的成功觀察到,使用深度學習的功效取決於開發專門的神經網絡架構,該架構可以捕獲數據的重要屬性,例如空間局部性(卷積神經網絡 - CNN)、序列性質 (循環神經網絡 – RNN)、上下文依賴(Transformers)和數據分布(自動編碼器 – AE)。
圖 1 展示了在計算生物學領域中應用最多的六種深度學習架構。該綜述的着力點主要是在計算生物學應用方面;如果希望了解更多對 DL 方法和架構的完整評論,研究人員建議讀者閱讀 LeCun 團隊的論文。
LeCun 團隊論文:https://www.nature.com/articles/nature14539
這些 DL 模型徹底改變了語音識別、視覺對象識別和對象檢測,並且最近在解決計算生物學中的重要問題方面發揮了關鍵作用。深度學習在計算生物學的其他領域(例如功能生物學)的應用正在增長,而其他領域(例如系統發育學)則處於起步階段。
鑑於計算生物學不同領域 DL 的接受度之間存在巨大差異,一些關鍵問題仍未得到解答:
(1)是什麼讓一個領域成為 DL 方法的首選?
(2)DL 在計算生物學應用中的潛在局限性是什麼?
(3)哪種 DL 模型最適合計算生物學的特定應用領域?
圖 1:機器學習場景和常用 DL 架構的概述。
該綜述中,研究人員旨在從計算生物學的角度解決這些基本問題。然而,答案是高度特定於任務的,只能在相應應用程序的上下文中解決。Whalen 團隊已經討論了在基因組學中應用機器學習(ML)的缺陷,但該綜述的目標是提供關於 DL 在五個不同領域的影響的觀點。雖然 DL 在生物科學領域取得了顯着的成功(例如 DeepVariant、DeepArg、宏基因組分箱和原產地歸屬實驗室),但該綜述的目標是只關注一些多樣化和廣泛的子主題。
研究人員評估了 DL 在計算生物學中對經典 ML 技術的改進,迄今為止取得了不同程度的成功(圖 2)。
對於每個領域,探討了當前方法的局限性和改進機會,並包括實用技巧。他們圍繞計算生物學中五個廣泛而不同的領域展開討論:蛋白質結構預測、蛋白質功能預測、基因組工程、系統生物學和數據集成以及系統發育推斷(表 1)。
這些領域提供了一系列影響水平,從主要範式轉變(AlphaFold2)到處於起步階段的 DL 應用(系統發育推斷);總體來說,它們提供了足夠豐富的技術多樣性來解決從這個角度提出的問題。
研究人員主要回顧了四個計算生物學主題的進展,
(i)範式轉換(其中 DL 明顯優於其他 ML 和經典方法,並提供了廣泛的影響)排序;
(ii)重大成功(DL性能通常高於其他ML和經典方法);
(iii)中度成功(DL性能通常與其他ML和經典方法相當);
(iv)輕微成功(DL方法未被廣泛採用或與其他ML和經典方法相比表現不佳);
最後,討論了生物科學中DL面臨的常見挑戰。
圖 2:主要標記和未標記數據集的摘要視圖,以及計算生物學深度學習方法中使用的架構。
DL 的範式轉變成功
蛋白質結構預測
蛋白質結構預測可以說是深度學習在計算生物學中最成功的應用之一;這種成功就是範式轉變。眾所周知,蛋白質的氨基酸序列決定了其 3D 結構,而這又與其功能直接相關(例如化學反應催化、信號轉導、支架等)。
蛋白質結構預測問題的歷史可以追溯到 1950 年代 John Kendrew 對肌紅蛋白 3D 結構的測定,這是生物化學和結構生物學的里程碑。從那時起,X 射線晶體學已成為蛋白質結構測定的金標準實驗方法,以及驗證蛋白質結構預測計算模型的參考。
考慮到 X 射線晶體學的高成本和技術限制,以及人類基因組計劃之後對生物序列的日益普及,從蛋白質序列預測蛋白質的 3D 結構成為計算生物學中的珠穆朗瑪峰;一個被廣泛稱為「蛋白質摺疊問題」的挑戰。最初的努力集中在使用生物物理精確的能量函數和基於知識的統計推理,但最近取得了更快的進展,更加關注深度學習。
DL 最近在該領域取得成功的關鍵原因之一,是多序列比對 (MSA) 形式的大量無監督數據,這使得學習蛋白質的非線性進化信息表示成為可能。
AlphaFold2 對結構生物學領域的影響是不可否認的;它成功地展示了使用基於 DL 的實現來進行高精度蛋白質結構預測。正如大量早期引用所強調的那樣,這一成就已經在推動和加速該領域的進一步發展。
此外,DeepMind 還與歐洲分子生物學實驗室(EMBL)合作創建了一個以 AlphaFold2 為模型的開放式蛋白質結構數據庫。該數據庫已經涵蓋了 98.5% 的人類蛋白質,其中至少 36% 的氨基酸殘基被高可信度預測。
最後,基於 DL 的方法不會淘汰實驗方法,而是可以提高實驗方法的準確性和範圍,如初步應用通過 X 射線晶體學和冷凍電鏡數據解決具有挑戰性的結構所證明的那樣。然而,許多警告、限制和懸而未決的問題仍然存在。特別是,雖然 AlphaFold2 成功地預測了蛋白質的靜態結構,但有關蛋白質生物學功能的許多關鍵見解都來自其動態構象。此外,多種蛋白質相互作用的動力學仍然在該領域提出了開放的挑戰。展望未來,監測深度學習在這些後續研究領域的應用將很重要。
DL的主要成就
蛋白質功能預測
預測蛋白質功能是蛋白質結構預測之後自然而然的下一步。蛋白質功能預測涉及將目標蛋白質映射到策劃的本體,例如基因本體(GO)術語、生物過程(BP)、分子功能(MF)和細胞成分(CC)。
蛋白質結構可以傳達很多關於這些本體的信息,但是,兩者之間沒有直接的映射關係,而且映射通常非常複雜。
儘管 UniProtKB 數據庫中可用的蛋白質序列大幅增長,但絕大多數蛋白質的功能注釋仍然部分或完全未知。有限且不平衡的訓練示例、可能函數的大輸出空間以及 GO 標籤的層次性是與蛋白質功能注釋相關的一些主要瓶頸。
為了克服一些問題,最近的研究方法利用了來自不同來源的特徵,包括序列、結構、交互網絡、科學文獻、同源性、領域信息,甚至結合了一種或多種 DL 架構來處理不同階段的預測任務(例如特徵表示、特徵選擇和分類)。
作為解決該問題的最成功的深度學習方法之一,DeepGO 結合了 CNN 來學習序列級嵌入,並將其與從蛋白質-蛋白質相互作用(PPI)網絡中獲得的每種蛋白質的知識圖嵌入相結合。DeepGO 是首批基於 DL 的模型之一,在三個 GO 類別的功能注釋任務上表現優於 BLAST 和以前的方法。
與 CAFA3 挑戰賽中三個 GO 類別的其他工具相比,DeepGOPlus 是該工具的改進版本,成為表現最好的工具之一。DeepGOPlus 使用不同大小的卷積濾波器和單獨的最大池來學習嵌入在 one-hot 編碼方案中的蛋白質序列的密集特徵表示。研究表明,將 CNN 的輸出與 DIAMOND 的基於同源性的預測相結合可以提高預測準確性。
諸如 DAE 之類的無監督方法也有助於學習蛋白質的密集、穩健和低維表示。Chicco 團隊開發了一個 DAE 來表示用於分配缺失 GO 注釋的蛋白質,並且與非 DL 方法相比,在六個不同的 GO 數據集上顯示了 6% 到 36% 的改進。Miranda 和 Hu 團隊引入了 Stacked Denoising Autoencoders (sdAE) 來學習更穩健的蛋白質表示。Gilgorijevic 團隊介紹了使用多模態 DAE (MDA) 從多個異構交互網絡中提取特徵的 deepNF,其性能優於基於矩陣分解和線性回歸的方法。學習蛋白質低維嵌入的方法不斷發展。
除了預測基因本體標籤外,研究還集中在其他幾個特定於任務的功能類別,例如識別特定的酶功能和潛在的翻譯後修飾位點。這些研究是朝着開發具有特殊功能的新型蛋白質或修改現有蛋白質的功效邁出的基本步驟,如 DL 在酶工程中的最新進展所示。展望未來,深度學習在針對特定功能定製的工程蛋白質中的應用可以幫助提高候選蛋白質在其他領域的藥物應用的吞吐量。
除了這些規範的體系結構之外,還有其他方法使用了上述方法的組合進行功能分類。總體而言,先前的結果表明,集成多模態數據類型特徵的模型更有可能勝過依賴單一數據類型的模型。
來自文獻的趨勢表明,依賴特定於任務的架構可以幫助極大地增強各自數據類型的特徵表示。在這個方向上的未來工作可能集中在將 DAE 和 RNN 結合起來用於基於序列的表示,以及將圖卷積網絡(GCN)用於基於結構和基於 PPI 的信息。將這些表示在分層分類器(例如多任務 DNN)中與生物學相關的正則化方法相結合,可以為蛋白質功能預測提供可解釋且計算上可行的 DL 架構。
基因組工程
生物醫學工程,特別是基因組工程,是生物學中的一個重要領域,其中 DL 模型已被越來越多地採用。
DL 的未來面向新的編輯技術,例如 CRISPR-Cas12a(cpf1)、鹼基編輯器和主編輯器。雖然這些方法沒有引入 DSB,但它們的效率仍在提高;事實上,DL 已經在預測人類細胞中腺嘌呤鹼基編輯器(ABE)和胞嘧啶鹼基編輯器(CBE)以及主要編輯器 2(PE2)活動的效率方面顯示出了希望。
然而,未來的挑戰在於理解這些模型。CRISPRLand 是一個最近的框架,它在高階交互方面向 DL 模型的解釋和可視化邁出了第一步。除了可解釋性之外,研究人員推測能夠對預測結果進行不確定性估計的方法在基因組編輯中變得更加普遍。
此外,由於細胞類型對 CRISPR 實驗效率的顯着影響,了解在基因組工程中部署 DL 模型的分布變化至關重要。整合域適應方法以限制這種分布變化的影響是其他重要的未來方向之一。
深度學習的中等成功
系統生物學和數據集成
系統生物學從整體角度對複雜的生物過程進行建模,以最終解開基因型和表型之間的聯繫。不同組學數據的整合是彌合這一差距的核心,可實現強大的預測模型,這些模型已導致最近的幾項突破,從基礎生物學到精準醫學。
DL 的小成功
系統發育學
系統發育是一棵進化樹,它模擬了一組分類群的進化歷史。系統發育推斷問題涉及從正在研究的分類群中獲得的數據(通常是分子序列)構建系統發育。
圖 3:系統發育推斷的標準和深度學習方法。
目前 DL 在系統發育樹方面取得的成功令人印象深刻,但考慮到各種挑戰,很難設想一個端到端的深度學習模型在不久的將來從原始數據直接估計系統發育樹。如果要開發一個,考慮到它依賴(可能是模擬的)訓練數據,在取代傳統的系統發育方法之前,它對實際生物序列的適用性需要仔細驗證。
DL 在生物科學中的一般挑戰
並非深度學習的所有應用在計算生物學中都同樣成功。雖然在蛋白質結構預測和基因組編輯等某些領域,DL 取得了重大成功,但在系統發育推斷等其他領域,DL 面臨着重大障礙。DL 方法面臨的最常見問題源於缺少注釋數據、非模擬數據集固有的缺乏基本事實、訓練數據分布和真實測試數據分布之間的嚴重差異、結果基準和解釋中的潛在困難,以及最終克服數據集和模型中的偏見和道德問題。此外,隨着數據和深度學習模型的增長,訓練效率已成為進步的主要瓶頸。
具體來說,DL 在計算生物學不同子領域的成功高度依賴於標準化監督和非監督數據集的可用性和多樣性、具有明顯生物學影響的 ML 基準、問題的計算性質以及訓練 DL 模型的軟件工程基礎設施 。DL 在計算生物學中的剩餘挑戰與提高模型可解釋性、提取可操作和人類可理解的見解、提高效率和限制培訓成本以及最終緩解 DL 模型日益嚴重的倫理問題有關;深度學習和計算生物學社區正在出現創新的解決方案。
表:使用 DL 時通常面臨計算生物學和潛在解決方案方面的挑戰。
綜述主要回顧了兩個需要改進的關鍵領域:(i)可解釋性和(ii)訓練效率。
結論
總而言之,雖然 DL 在蛋白質結構預測等領域的成功正在發生範式轉變,但與傳統方法相比,功能預測、基因組工程和多組學等其他領域的性能也在快速提升。對於系統發育學等其他領域,經典計算方法似乎在這些領域占據上風。特定於 DL 的其他進展應用於生物科學的挑戰,將進一步應用特定領域的生物學知識,同時努力提高可解釋性和提高效率。
論文鏈接:https://www.nature.com/articles/s41467-022-29268-7
人工智能×[生物 神經科學數學 物理 材料 ]
「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。
歡迎關註標星,並點擊右下角點讚和在看。
點擊閱讀原文,加入專業從業者社區,以獲得更多交流合作機會及服務。