近年來,腸道菌群與人體健康和疾病的關係受到關注,該領域相關研究持續增長,積累了大量的數據信息。這些菌群數據類型複雜、數量龐大,但蘊含着研究和應用價值。如何從海量零散的數據中挖掘出與人類健康和疾病緊密相關的信息,這成為腸道菌群領域關注的首要問題。一方面,腸道微生物的種類和豐度與基因表達陣列不同,更易受到飲食、地域等各種因素的影響,不同人群之間腸道菌群組成可能存在較大差異,這使得直接基於菌群豐度整合數據並進行生物標識物挖掘的方法必然產生偏差;另一方面,微生物豐度矩陣過於稀疏,常規計算方法也很難基於此稀疏矩陣對不同批次的豐度進行校正。因此,建立更為高效的算法模型來解讀複雜菌群數據的內在規律,顯得迫切和重要。
中國科學院北京生命科學研究院趙方慶團隊開發了一種高效的菌群大數據整合與標識物識別的新算法——NetMoss。5月23日,相關研究成果以Large-scale microbiome data integration enables robust biomarker identification為題,在線發表在Nature Computational Science上。該算法針對不同菌群數據集的高異質性特點,利用微生物互作網絡對不同來源的數據進行有效整合,通過比較不同狀態下微生物網絡的擾動情況,量化不同網絡模塊間的拓撲結構差異,從而實現對疾病標識物的識別。與既往方法相比,NetMoss可以更高效地對不同批次的微生物組大數據進行無偏整合,挖掘與疾病相關的菌群標識物,並識別出驅動多種疾病發生的菌群失調共變模式。
科研人員收集整理了11,377例包括疾病與健康對照的腸道菌群測序樣本,覆蓋78項研究、37種疾病、13個國家或地區。針對這些不同人群的多種數據集,研究發現目前常用的計算方法,極難去除實驗和測序過程中導致的批次效應。為了有效地進行後續分析、避免偏倚性,研究開發了一種高效的數據整合和生物標識物挖掘的計算模型(如圖)。該模型以微生物互作網絡作為理論基礎,在每個子數據集中單獨構建微生物互作網絡。而後,依據微生物網絡的結構特點,為每個網絡賦予不同權重再加以整合。通過此方式,每個子數據集中最原始的生物互作信息都可以得到有效保留,減少了不同批次對最終整合數據的影響。對疾病相關的生物標識物的識別,則是基於整合後的微生物網絡進行。根據網絡中不同微生物的互作關係將網絡劃分出不同的模塊,通過量化疾病和健康網絡中不同模塊的拓撲結構差異,找出對外界影響擾動最敏感的細菌,對這些細菌在網絡中的擾動程度進行打分,從而識別出與疾病發生發展密切相關的細菌。研究將該計算模型應用於模擬和真實數據集,發現該模型具有很高的準確性和魯棒性,無論是在整合後的數據集還是在單一數據集中,其對疾病相關標識物的識別效率均高於其他方法。研究進一步發現,大部分疾病標識物不只單單導致一種疾病的發生,而是與多種疾病存在顯著關聯;這些相似的菌群失調現象可能為不同疾病的共性致病機理提供重要線索。
該研究首次提出基於微生物互作網絡的新算法,實現對大規模菌群數據的高效整合與疾病相關標識物的精準識別。基於龐大的微生物互作網絡,可以挖掘出一些豐度尚未發生顯著改變,但在生態互作網絡中已被擾動的關鍵微生物類群。關注這些在生態互作中發生改變的細菌,為疾病的機制研究提供了新線索和關鍵靶標。通過研究它們在不同系統之間的作用,將有助於理解菌群與宿主互作的本質,也可以更好地指導我們對多種疾病進行預防和治療。將腸道菌群及它們內部的互作關係作為整體來看待,能夠捕捉到更多以往由於孤立研究而被忽視的信息,這種全面系統的整合分析的思維模式也為其他方向的研究提供了重要啟示。
研究工作得到國家傑出青年科學基金、國家重點研發計劃和中科院戰略性先導科技專項。趙方慶團隊致力於建立高效的算法模型和實驗技術,探索人體微生物與非編碼RNA的結構組成與變化規律,以期解析它們與人類健康和疾病的關係,相關成果發表在Cell (2020)、Gut(2022/2020/2018)、Nature Biotechnology(2021)、Nature Computational Science(2022)、Nature Communications(2022a/2022b/2021/2020/2017/2016)、Genome Biology(2021/2020/2016)、ISME J(2019)等上,這豐富了我們對人體微生物與非編碼RNA多樣性、結構組成與功能的認識,並為相關數據挖掘及功能機制研究提供了重要的方法學工具。
NetMoss算法及CRC相關菌群標識物的挖掘
溫馨提示:近期,微信公眾號信息流改版。每個用戶可以設置 常讀訂閱號,這些訂閱號將以大卡片的形式展示。因此,如果不想錯過「中科院之聲」的文章,你一定要進行以下操作:進入「中科院之聲」公眾號 → 點擊右上角的 ··· 菜單 → 選擇「設為星標」