
本文約1800字,建議閱讀7分鐘
本文與你分享圖神經網絡的相關論文及科學應用。
隨着該領域的成熟,圖神經網絡論文的數量也在增長,作者仔細研究了一些科學應用,並收集了幾篇發表在Nature上的GNN論文。
我們周圍的很多信息都可以用圖表來表示。一個例子是城市道路網絡,其中交叉口是節點,道路是鏈接。另一個是調控網絡,它描述了不同基因如何相互作用以增強或抑制某些細胞功能。圖神經網絡(GNN)可以處理基於圖的信息以進行預測。在在 2022 年 3 月 23 日的《Nature Machine Intelligence》的一篇論文中,Xue Jiawei 團隊基於全球 30 個城市的城市道路網絡拓撲特徵,使用 GNN 研究和預測社會經濟特徵。
論文鏈接:https://www.nature.com/articles/s42256-022-00462-y
十多年前,GNN 作為一種處理複雜數據的方法出現了,這些數據最好表示為對象之間的許多鏈接和依賴關係的圖。卷積神經網絡(CNN)擅長處理圖像、文本或視頻等數據。這些可以被認為是簡單的圖形或固定大小和形狀的序列。
但我們周圍的大部分數據都採用更複雜的不規則大小和形狀的圖形形式,例如社交網絡、道路網絡、基因組數據或分子相互作用。CNN 難以處理這種形式的數據,而這正是 GNN 的用武之地。它們學習對圖中每個節點的局部環境信息進行編碼。GNN 可以在整個圖的級別上執行預測或分類任務,也可以針對每個節點或邊執行預測或分類任務。
基於圖的深度學習在許多領域都取得了成功,從推薦系統到交通時間預測。但 GNN 也已被證明可用於科學應用,例如基因組學、分子設計、藥物開發和物理模擬。在 Schulte-Sasse 團隊最近的一篇論文中可以找到一個有前景的基因組學示例。
論文鏈接:https://www.nature.com/articles/s42256-021-00325-y
在過去的二十年裡,高通量測序技術與表觀遺傳和轉錄組分子數據相結合,為基因組學提供了豐富的信息,其中一些可以被挖掘來識別致癌基因。
近年來,癌症基因如何導致細胞生長的圖景變得更加複雜:癌症可以通過DNA序列水平上基因突變以外的多種途徑發生,表觀遺傳機制或調控區域中間接激活或沉默其他基因的非編碼突變也可以發揮作用。多組學數據集可以闡明這些過程。
數據可以建模為生物網絡或圖形,其中節點代表基因,鏈接代表基因-基因相互作用。研究人員使用了一種高級類型的 GNN——圖卷積網絡——它可以根據節點特徵向量和網絡拓撲對網絡中未標記的節點進行分類。通過他們的方法,利用多維多組學節點特徵以及蛋白質-蛋白質相互作用網絡的拓撲特徵,不僅可以識別高度突變的癌症基因,還可以識別包含其他類型改變的基因,或與其他癌症基因相互作用的基因。該研究將來自 16 種癌症類型的基因組數據輸入該方法,確定了 165 個可能導致癌症的新候選基因。
Schulte-Sasse 團隊使用的機器學習方法——帶有圖卷積網絡的半監督分類——由 Kipf 和 Welling 於 2017 年的一篇開創性論文中被引入。
論文鏈接:https://arxiv.org/abs/1609.02907
在過去的 5 年裡,它刺激了基於圖的機器學習的許多進步。Haghir Chehreghani 在 2022 年 3 月 23 日的《Nature Machine Intelligence》發表的一篇新聞與觀點文章重點介紹了這篇論文,並討論了該方法的效率、可解釋性和可擴展性。
論文鏈接:https://www.nature.com/articles/s42256-022-00466-8
分子預測和藥物發現是基於圖的方法的另一個領域。幾十年來,該領域以各種創造性的方式使用機器學習,與表示分子的不同方法相關聯。一種方法是將分子表示為線性字符串(也稱為「簡化的分子輸入行輸入系統」或「SMILES」),這適用於自然語言處理中的深度學習方法。
或者說,為了保留分子的拓撲信息,可以將它們表示為圖,以原子為節點,以鍵為鏈接。Wang Yuyang 團隊最近的一篇論文。描述了一種基於自我監督 GNN 的方法,以解決與潛在生物活性分子的巨大空間(被認為是 10^60 級)相比,分子標記數據相對稀缺的問題。研究人員的框架在一個包含大約 1000 萬個分子的大型未標記數據集上進行了訓練,並學習了可用於區分化學性質的分子表示。
論文鏈接:https://www.nature.com/articles/s42256-022-00447-x
考慮到具有相同拓撲結構的分子的不同異構體可能具有不同的化學性質,可以添加到分子圖形表示中的另一個組件是它們的幾何結構。Fang xiaomin 團隊最近的一篇論文。描述了如何在幾何增強的 GNN 方法中對分子的拓撲結構和幾何結構進行編碼可以改進分子特性預測。
論文鏈接:https://www.nature.com/articles/s42256-021-00438-4
正如 Chehreghani 所強調的,仍然需要為 GNN 開發一個更好的理論框架,並更好地理解它們的局限性。鑑於越來越多的複雜、高度連接的數據,更基礎的理解將刺激 GNN 在許多領域的進一步令人興奮的應用。
該社論以「The graph connection」為題,於 2022 年 3 月 23 日發布在《Nature Machine Intelligence》。
參考內容:https://www.nature.com/articles/s42256-022-00476-6
編輯:黃繼彥