close

新智元報道

編輯:袁榭 snailnj

【新智元導讀】AlphaFold為生物學帶來了重大革新,但革新的內容具體如何呢?
自從DeepMind公布AlphaFold系列的AI工具後,生物與製藥的學界、業界都驚呼利器誕生。但這種AI利器,給生物學和醫藥學帶來了哪些重大變化呢?

AlphaFold改變了生物學


十多年來,分子生物學家Martin Beck和他的同事一直在試圖拼出世界上最難的拼圖之一:人類細胞中最大的分子結構的詳細模型。

這種被稱為核孔複合體的龐然大物控制着分子進出細胞核的流動,也就是基因組所在的地方。每個細胞中都存在數百個這樣的複合物。每個都由超過1000種蛋白質組成,這些蛋白質在穿過核膜的孔周圍形成環。

這1000塊拼圖是由30多個蛋白質組成的,它們以各種方式交織在一起。讓謎題更難的是,這些拼圖塊的實驗確定的3D形狀是許多不同種類蛋白質板塊的混合體,所以並不總是能很好地結合在一起。

拼圖盒子上的圖片——核孔複合體的低分辨率3D視圖——缺乏足夠的細節,無法知道有多少碎片精確地組合在一起。

核孔複合體的模擬圖

2016年,Beck領導的一個團隊在德國法蘭克福的馬克斯·普朗克生物物理研究所(MPIB)報告了一個模型,該模型覆蓋了約30%的核孔複合體和約一半的30個蛋白質構建塊,稱為Nup蛋白。

2021年7月,總部位於倫敦的DeepMind公司公開了一款名為AlphaFold2的人工智能工具。該軟件可以根據基因序列預測蛋白質的3D形狀,在很大程度上具有非常精確的準確性。這改變了貝克的工作,也改變了成千上萬其他生物學家的研究。

「AlphaFold改變了遊戲規則。」貝克說。

以色列耶路撒冷希伯來大學的計算結構生物學家Ora Schueler-Furman說:「這就像一場地震。你可以在任何地方看到它。」他當時正在使用AlphaFold來模擬蛋白質相互作用,研究期間正好遇到這事。

藉用AlphaFold,Beck與多家研究機構的合作團隊,通過對AlphaFold的一項調整,他們成功地在2021年10月發布了一個模型,可以更準確地預測人類Nup蛋白的形狀。

該模型覆蓋了60%的複合物。它揭示了複合物是如何穩定原子核中的孔洞,同時也暗示了複合物是如何控制進出的物質。

在之後的半年裡,AlphaFold熱潮席捲了生命科學領域。「我參加的每一次會議,人們都在說,為什麼不使用AlphaFold?」倫敦大學學院的計算生物學家Christine Orengo說。


在某些情況下,人工智能為科學家節省了時間,在另一些領域,它使以前難以想象或極其不切實際的研究成為可能。

它有局限性,一些科學家發現它的預測對他們的工作來說太不可靠了,但是基於人工智能開展的實驗卻從未停止。

即使是那些開發軟件的人,也在努力跟上它在從藥物開發、蛋白質設計到複雜生命起源等領域的應用。

DeepMind里領導AlphaFold 團隊的John Jumper說:「我每天睡醒在推特上輸入AlphaFold,看到的一切都是嶄新的未來。」

一個驚人的成功


AlphaFold在2020年12月的一場名為「蛋白質結構預測關鍵評估」(Critical Assessment of Protein Structure Prediction, CASP)的競賽中占據了優勝地位,引起了轟動。

這項競賽每兩年舉行一次,衡量生物學中最大挑戰之一的進展:僅從蛋白質的氨基酸序列來確定蛋白質的3D形狀。參賽者用X射線晶體學或低溫電子顯微鏡等實驗方法,以建立蛋白質形狀的圖像。

Jumper 說,AlphaFold的2020版是其第二版。它之前還贏得了2018年的CASP,但其早期的努力大多不足以代替實驗確定的蛋白質結構。然而,平均而言,AlphaFold2的預測結果與實際蛋白質結構的經驗值相當。

當時還不清楚DeepMind何時會將該軟件或其預測廣泛發布,因此有研究人員使用了來自DeepMind的AlphaFold團隊負責人John Jumper一次公開演講的信息,結合他們自己的技術水平,開發了他們自己的人工智能工具,名為RoseTTAFold。

然後,在2021年7月15日,描述RoseTTAFold和AlphaFold2的論文同時發布。隨論文公開的,還有免費提供的開源代碼和運行自製版本的工具所需的其他專業信息。

一周後,DeepMind宣布,它已經使用AlphaFold預測了幾乎每一種由人類設計的蛋白質結構,以及其他20種被廣泛研究的生物體的整個「蛋白質組」,如小鼠和大腸桿菌——總共超過365000個結構。

DeepMind還將這些信息公開發布到EMBL歐洲生物信息學研究所(EMBL–EBI)維護的數據庫中。自那以後,該數據庫已增長到近100萬個結構。

2022年,DeepMind計劃發布總計超過1億個預測結構。這幾乎是所有已知蛋白質的一半,是蛋白質數據庫(PDB)結構庫中實驗確定的蛋白質數量的數百倍。

AlphaFold的發展歷程

AlphaFold部署了深度學習神經網絡—受大腦神經網絡啟發的計算架構—以識別數據中的模式。它已經在PDB和其他數據庫中通過實驗確定了成千上萬的蛋白質結構和序列。

面對一個新的氨基酸序列,它首先在數據庫中尋找相關的序列,這些序列可以識別出傾向於一起衍變的氨基酸,這表明它們在3D空間中接近。

AlphaFold在試圖為氨基酸的3D位置建模時,會從這些平行軌跡中反覆迭代線索,並不斷更新其估算值。現有相關蛋白質的結構還提供了另一種方法估算新序列中氨基酸對之間的距離。

專家表示,AlphaFold之所以效果表現如此優異,似乎是因為它在機器學習研究中應用了新方法,特別是它使用了自注意力機制,來確定在任何時候,哪些氨基酸連接對它的任務最重要。

該網絡依賴於相關蛋白質序列的信息,這意味着AlphaFold有一些局限性。

AlphaFold不能用來預測突變對蛋白質形狀的影響,比如那些導致疾病的突變。它也沒有被訓練去確定蛋白質在其他相互作用的蛋白質或分子(如藥物)存在時是如何改變形狀的。


但是它的模型帶有評分機制,用來衡量神經網絡AI對蛋白質中每個氨基酸單元的預測的置信值。研究人員正在調整AlphaFold的代碼,以擴大其功能。

據DeepMind稱,到目前為止,已有超過40萬人使用了EMBL-EBI的AlphaFold數據庫。還有一些AlphaFold的「超級用戶」研究者在自設的服務器上安裝了該軟件,或者使用基於雲版本的AlphaFold來預測EMBL-EBI數據庫之外的蛋白質結構,或者設想該工具的新用途。

解決結構問題


AlphaFold解決蛋白質結構問題的能力給生物學家留下了深刻的印象。

丹麥奧胡斯大學結構生物學家Thomas Boesen說:「根據我目前所看到的情況,我非常信任AlphaFold。」該軟件已經成功地預測了Boesen中心已經確定但尚未公布的蛋白質的形狀。

Boesen說:「從我的角度看,這增加了我當前工作的信心」。他正在使用AlphaFold來模擬細菌蛋白質的結構,這些蛋白質促進冰晶的形成,可能有助於大氣雲中冰的冷卻效果,因為生物學家還不能通過實驗完全確定這種結構。

斯德哥爾摩大學的蛋白質生物信息學家Arne Elofsson說,只要一個蛋白質捲曲成一個明確的3D形狀——並不是所有的蛋白質都是這樣——AlphaFold的預測就很難被擊敗。「這是一鍵式的解決方案,可能是你所能得到的最好的結構。」

Elofsson 說,在AlphaFold不太確定的問題上,「它非常擅長告訴你什麼時候它不起作用」。在這種情況下,預測出的蛋白質結構可能類似於浮動的意大利麵條形狀。

這通常對應於缺乏確定形狀的蛋白質區域,比如獨立的蛋白質結構。這種本質上無序的區域,可能只有在存在另一種分子時才能得到很好的定義,約占人類蛋白質組的三分之一。

倫敦癌症研究所的計算生物學家Norman Davey表示,AlphaFold識別蛋白質異常的能力,改變了他在識別病灶區域的研究。他說:「我們沒有做任何努力,對癌症預測的質量立刻大幅提高。」

AlphaFold向EMBL-EBI數據庫中輸入的蛋白質結構也立即投入使用。有研究團隊正在尋找新的、未經實驗驗證的蛋白質種類,並且已經發現了成百上千種可能的新蛋白質家族,這擴大了科學家對蛋白質的外觀和功能的認識。

在另一項研究中,該團隊正在搜索從海洋和廢水中提取的DNA序列數據庫,以試圖識別新的、能食用塑料的酶。利用AlphaFold快速預測數千種蛋白質的近似結構的能力,研究人員希望更好地了解酶是如何進化來分解塑料的,並對其加以改善。


哈佛大學的進化生物學家Sergey Ovchinnikov表示,將任何蛋白質編碼基因序列轉換成可靠結構的能力對於生物進化研究來說至關重要。研究人員通過比較基因序列來確定生物及其基因在不同物種間的關係。

對於遠親基因,手動比較可能無法找到進化上的親緣關係,因為序列變化數據集太大了。由於蛋白質結構往往比基因序列變化得慢,通過比較蛋白質結構,研究人員可能會發現物種間被忽視的古老親緣關係。

蘇黎世瑞士聯邦理工學院的計算生物學家佩德羅·貝爾特勞說:「這為研究蛋白質進化和生命起源提供機會。」

為了驗證這一想法,由首爾國立大學計算生物學家Martin Steinegger領導的團隊,使用了他們開發的一種名為Foldseek的工具,在AlphaFold數據庫中尋找導致新冠肺炎的病毒SARS-CoV-2的RNA複製酶的親屬。

這項研究發現了之前未被確認的、病毒可能的古代近親:包括黏液黴菌等真核生物中的蛋白質在其3D結構上類似於被稱為逆轉錄酶的酶,這種酶是HIV等病毒用來將RNA複製到DNA的,儘管在基因序列水平上幾乎沒有相似之處。

AlphaFold,實驗好助手

對於想要確定特定蛋白質的詳細結構的科學家來說,AlphaFold的預測結果不一定是立竿見影的解決答案。不過,它提供了一個可以通過實驗驗證或改進的初始近似值,這本身是有助於理解實驗數據的。

例如,用X射線晶體學方法獲得的蛋白質晶體結構原始數據,一般以X射線的衍射圖案這種形式呈現。

過去,科學家通常需要對蛋白質結構有估測的基準點,才能進一步解讀這些數據。據英國劍橋大學的結構生物學家Randy Read稱,他們以前經常將來自「蛋白質數據庫」中相關蛋白質的信息拼湊起來,或者用其他方法來猜測基準點。

現在,AlphaFold的準確預測,使得過去的蛋白質晶體結構的X射線衍射圖案判讀方法的大多數都可以被放棄了。Read表示,他的實驗室正在努力在實驗模型中更好地利用AlphaFold,「有了AlphaFold後,我們完全重新調整了研究重點。」

Read和其他研究人員已在使用AlphaFold從X射線的掃描圖片數據中確定晶體結構,之前這些數據在沒有足夠初始基準值的前提下是無法解析的。

Read實驗室的前博士後、現在在分析公司SciBite工作的Claudia Millán Nebot 說,學界正在藉AlphaFold解決多年來一直無法解決的此類障礙。她預計將有大量新的蛋白質結構提交給「蛋白質數據庫」,這在很大程度上是AlphaFold的功勞。

專門從事低溫電鏡檢測的實驗室也是如此,低溫電鏡可以捕捉到速凍蛋白質的照片。

在某些情況下,AlphaFold能準確預測稱為「G蛋白偶聯受體」(GPCR) 的蛋白質的獨特特徵,這些蛋白質是重要的藥物靶標,而其他計算工具在做類似預測時多會出錯。

美國北卡羅來納州教堂山大學的結構生物學家、藥理學家Bryan Roth稱:「AlphaFold似乎非常適合生成首個基準模型,然後我們用電鏡觀測到的和其他實驗數據對其進行改進,這為我們大大節省時間。」

不過Roth表示AlphaFold並非永遠準確。在他的實驗室已經解析出但尚未發表的幾十個GPCR結構中,「大約有一半的時候,AlphaFold預測的蛋白質結構相當準確。不過在另一半的時候,AlphaFold就非常沒用」。


Roth說,在某些情況下,AlphaFold標記成高置信度的蛋白質結構預測,在用實驗跑過、電鏡跑過之後,發現是完全錯誤的。

即使AlphaFold預測對了,它現在也無法模擬靶點蛋白質與藥物或其他小分子配體結合時的微觀外觀,而這種結合會大大改變蛋白質的分子結構。這些弊端讓Roth對AlphaFold在藥物開發上的當下用處不抱樂觀態度。

在藥物開發工作中,越來越普遍的做法是使用對接實驗室的計算軟件,來在數十億個小分子中篩選出一些可能與靶點蛋白質結合的分子,這表明它們可以製造有用的藥物。

Roth現在正與加州大學舊金山分校的藥物化學家Brian Shoichet合作,探索如何將AlphaFold的預測結果,與這種辦法中通過實驗確定的蛋白質結構進行比較。

Shoichet稱,他們將工作限制在AlphaFold預測結構與實驗最終結構相吻合的蛋白質上。但即使在這些情況下,前述的對接軟件也會對實驗產生的蛋白質結構和AlphaFold預測結構給出不同的藥物開發命中率,這表明即使微小的差異也可能很關鍵。

「這並不意味着我們無法發現新的配體,我們只是會發現不同的配體,」Shoichet說。他的團隊現在正在合成用AlphaFold識別出蛋白質結構的潛在藥物,並在實驗室中測試它們的活性。

製藥業界對AlphaFold是批判性樂觀


Shoichet表示,現在製藥公司和生物技術公司的研究人員對AlphaFold助力藥物開發的潛力感到興奮。「我會把大家的心態稱作批判性的樂觀態度。」

2021年11月,DeepMind推出了它自己的生物技術子公司IsoMorphic Labs,旨在將AlphaFold和其他AI工具應用於藥物發現。不過該公司對此項目並不透露太多信息。

Karen Akinsanya是總部位於紐約市的藥物開發企業薛定諤公司的臨床藥物開發部門負責人,她們公司也開發了化學反應模擬軟件。

Karen表示自己與同事已經在使用AlphaFold上取得了一些成功,其中包括了發現在虛擬環境模擬與現實藥物成分設計都可行的GPCR結構。

她發現,就像實驗生成的蛋白質結構一樣,研究者要用更多的額外軟件/算法,才能獲取特定氨基酸側鏈或特定氫原子可能所在位置的細節信息。一旦獲得這些信息,AlphaFold的預測結果就足以指導在某些情況下的藥物開發。

Akinsanya表示:「如此開發出的藥物很難說是萬靈丹,因為軟件設計結合AlphaFold預測可以開發出在特定方面非常令人驚訝且興奮的一種藥物分子結構,但這種辦法顯然不適合所有藥物分子結構的研發」。

而且,Akinsanya和同事發現,AlphaFold的蛋白質結構預測即使準確,也不能確保某個分子結構是否能通過藥物開發的後續篩查步驟。她說,AlphaFold的蛋白質結構預測永遠不會完全取代藥物開發中的實際實驗,但可以作為補充方法來加速開發進程。


對AlphaFold感到好奇的藥物開發商在2022年1月份收到了好消息,當時DeepMind取消了對AlphaFold用於商業應用的關鍵限制。

當DeepMind公司在2021年7月開源AlphaFold的代碼時,它基於在數十萬個蛋白質結構和序列上訓練神經網絡AI的最終結果,規定了運行AlphaFold所需的參數或權重,也規定了僅限於非商業用途使用。

Akinsanya表示,此限制對藥物開發行業中的一些人來說是一個瓶頸,當DeepMind改變規定時,藥物開發行業出現了一股「興奮的浪潮」。開發者之一稱RoseTTAFold也有類似的限制,但下一個版本將完全開源。

AI工具不僅改變了研究者確定蛋白質外觀的方式, 一些研究人員正在使用它們來製造全新的蛋白質。

西雅圖華盛頓大學的生物化學家、蛋白質設計領域的領軍人David Baker說:「深度學習工具正在徹底改變我的研究組中蛋白質設計的方式」。他的團隊與計算化學家Minkyung Baek一起主導了開發RoseTTAFold的工作。

Baker團隊讓AlphaFold和RoseTTAFold來「幻想」出新的蛋白質,研究人員已經修改了這兩個AI模型的代碼,因此,給定氨基酸的隨機序列,軟件將對其進行優化,直到它們形成會被判別為類似蛋白質的結構。

AlphaFold「幻想」蛋白質結構的過程

2021年12月,Baker團隊報告說,在細菌中表達了129種此類「幻想」出的蛋白質,並發現其中約五分之一摺疊成接近於其預測結構的最終形態。「這的確是學界首次證明研究者可以使用這些神經網絡AI設計前所未有的蛋白質。」

Baker團隊現在正在使用這種方法來設計各種特定蛋白質,例如催化特定的化學反應。方法是指定負責所需必備功能的氨基酸,並讓AI「幻想」蛋白質序列的其餘部分。

黑掉AlphaFold


當DeepMind開源其AlphaFold代碼時,Ovchinnikov想要更好地了解該工具的工作原理。

幾天之內,他和幾位計算生物學的同事建立了一個名為ColabFold的網站,允許任何人向AlphaFold或RoseTTAFold提交蛋白質序列並獲得結構預測結果。

Ovchinnikov設想他和其他研究者會使用ColabFold來嘗試「打破」AlphaFold,例如,通過提供有關目標蛋白質序列在進化過程中的近親蛋白質的虛假信息。通過這樣做,Ovchinnikov希望自己能夠確定神經網絡是如何學會如此出色地預測蛋白質結構的。

事實證明,儘管大多數使用ColabFold的研究人員只是想獲得蛋白質結構的預測結果,但其他人則將其用作修改對AlphaFold的輸入來試探此AI的平台。AlphaFold的開發負責人Jumper說:「我沒想到會有這麼多種類的黑客攻擊。」

到目前為止,最流行的黑客攻擊是在給AlphaFold輸入特定的蛋白質複合物序列,此類複合物由多個相互作用的、常常相互交織的肽鏈組成。

就像核孔複合物一樣,細胞中的許多蛋白質在與多個蛋白質亞基形成此類複合物時發揮前所未有的作用。

AlphaFold的設計目的旨在預測單個肽鏈的形狀,其訓練數據完全由單肽鏈類蛋白質組成。但神經網絡AI似乎很快學會了一些關於蛋白質複合物如何摺疊在一起的知識。

在AlphaFold代碼開源幾天後,東京大學的蛋白質生物信息學家Yoshitaka Moriwaki在推特上表示,如果將兩個蛋白質序列與一個更長的鏈接序列縫合在一起,AlphaFold也該可以準確地預測它們之間的相互作用。

ColabFold網站後來加入了預測複合物的能力。而在2021年10月,DeepMind發布了一個名為AlphaFold-Multimer8的更新,與其前身不同,該更新專門針對蛋白質複合物進行訓練。

Jumper的團隊將其應用於「蛋白質數據庫」中的數千個複合物,發現它預測了大約70%的已知的蛋白質序列之間的相互作用。

這些工具已經在幫助研究人員發現新的、潛在的蛋白質配對。


有研究團隊用AlphaFold預測了65000個人類蛋白質配對的結構,根據實驗數據,這些蛋白質配對之前被猜測有相互作用。

另一個團隊使用AlphaFold和RoseTTAFold來模擬酵母編碼的幾乎每對蛋白質之間的相互作用,識別出100多種以前未知的複合物。

研究者稱,這些篩除結果只是起點,AI在預測某些蛋白質配對方面做得更好,尤其是那些結構穩定、但更多瞬時相互作用難以被識別的蛋白質配對。

「不過,因為配對序列看起來不錯,並不意味着它是正確的,你需要一些實驗數據來對其證明。」

核孔複合體項目是預測結構和實驗數據如何協同工作的一個很好的例子。研究人員表示:「並不是說我們將所有30種蛋白質的序列數據都輸入AlphaFold,AI就能跑出個可用的蛋白質結構除了。」

為了將預測出的蛋白質結構真正在實驗中復現,該團隊拍攝了核孔複合物的3D圖像以求驗證。這些圖像是用低溫電子顯微鏡、通過一種稱為「低溫電子斷層掃描」的技術拍攝的。

在一次實驗中,用來確定蛋白質接近度的實驗,在複合物的兩個成分之間施加時,激發此二者間產生了之前未記錄的相互作用並被拍攝紀錄。而AlphaFold的模型預測結果之後又與紀錄相吻合,說明AlphaFold能成功預測此前未有的蛋白質反應。

這種成功的實驗模式將是以後分子生物學界其他實驗和模擬的起點,這些未來的實驗和模擬將能檢驗核孔複合體的機能,以及它如何在疾病組織中異變/失能的原因。

AlphaFold的局限


儘管AlphaFold取得了這些進展,研究者們表示,更重要的是要清楚它的局限性,特別是因為不專門預測蛋白質結構的研究人員會使用它。

將AlphaFold應用於破壞蛋白質自然結構的各種突變的嘗試,包括與早期乳腺癌相關的突變,已證實該軟件無法預測蛋白質全新突變的後果,因為沒有蛋白質進化相關的序列可供參照。

AlphaFold團隊現在正在思考如何設計新的神經網絡AI來處理蛋白質結構的全新突變。Jumper預計這將需要神經網絡AI更好地預測蛋白質如何從展開狀態變為摺疊狀態。

紐約市哥倫比亞大學的計算生物學家Mohammed Al-Quraishi稱,這可能需要AI只基於它已習得的生物物理學知識來預測蛋白質結構。

「我們感興趣的一點,是在不使用進化信息的前提下從蛋白質單個序列進行預測,這是一個尚未解決的關鍵問題。」


AlphaFold 被設計用來預測單一的蛋白質結構,儘管它被黑到可以跑出不止一個預測結果。

但是許多蛋白質具有多種構成,這對其生物機能很重要。AlphaFold預測是針對孤立的蛋白質結構,不能處理能採用多重構象的、真實的不同結構蛋白質。而真實的蛋白質與配體(如DNA和RNA)、脂肪分子和礦物質(如鐵)一起發揮作用。

Al-Quraishi坦承,開發能克服這些短板的新一代神經網絡AI將是一個巨大的挑戰。

AlphaFold的成功依賴於此前生物界數十年的研究,這些研究與實驗產生了AI可以學習的蛋白質結構數據。

目前在蛋白質動力學上無法獲得同等大量的數據來訓練AI。同樣地,蛋白質可以與之相互作用的數萬億個小分子的形狀數據也付之闕如。

「蛋白質數據庫」里包含部分蛋白質與其他分子相互作用時的結構,但這僅包括了真實蛋白質種類中的一小部分化學多樣性。

研究人員認為,他們需要時間來確定如何最好地使用AlphaFold和相關的AI工具。這與電視業早期相似,當時主要的節目由無線電廣播員出鏡,內容只是閱讀新聞。學界需要找到真正的、顛覆現狀結構的新用法。

至於AlphaFold帶來的革命性改變的終點在哪裡,誰也說不準。業界的創新速度極快,即使在不到一年中,這些AI工具也很可能帶來翻天覆地的重大突破。」

EMBL-EBI的計算生物學家Janet Thornton認為,AlphaFold 的最大影響之一,可能就是讓生物學家對計算和理論方法的見解更加開放。「對我來說,革命就是思維方式的改變。」

AlphaFold帶來的革命性改變最終激發了研究界的遠大夢想。受AlphaFold啟發的AI工具不僅可用於對單個蛋白質和複合物進行建模,還可以對整個細胞器亞結構甚至完整的全部細胞進行建模,並且細緻到單個蛋白質分子的水平。這將是學界未來幾十年的追求目標。

參考資料:

https://www.nature.com/articles/d41586-022-00997-5

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()