close

摘要

本次小編分享一篇於2021年1月11日發表於Cancer Cell的文獻,標題為《Next-generation analytics for omics data》,影響因子31.741。隨着高通量組學技術的不斷進步,海量的組學數據已經和即將產生,為生物醫學研究開啟了一個黃金時代,同時也給我們在消化這些數據和形成新的假設方面帶來了前所未有的挑戰。在一個改進的人工智能模塊的支持下,DrBioRight代表了直接通過自然語言執行生物信息學任務的初步嘗試。這種具有上述特徵的分析平台將產生一種新的研究範式,使組學數據的效用最大化,加速了生物醫學研究。



背景

日益增多的組學數據對信息學提出了嚴峻的挑戰。DrBioRight是一個面向自然語言和人工智能驅動的分析平台,使廣泛的研究社區能夠以直觀、高效、透明和協作的方式進行分析。新一代分析技術將最大限度地利用組學數據,為生物醫學研究開闢新的範式。

圖1. 對組學數據的下一代分析。

A.展示過去幾十年主要的組學數據資源和生物信息學工具的時間表;

B.DrBioRight在線聊天界面的快照;

C.DrBioRight分析流程概述;

D.下一代數據分析的主要特徵;

E.組學研究的新範式。



結果

組學數據分析面臨的挑戰

在過去的二十年裡,高通量分子分析技術已經徹底改變了生物醫學科學。來自數千名患者、動物模型和細胞系的各種組學數據(如基因組、轉錄組、蛋白質組、表觀組和代謝組數據)正在以越來越快的速度積累,這些數據一般是通過ENCODE、基因型-組織表達(GTEx)和癌症基因組圖譜(TCGA)等大型聯合項目進行積累(Fig1A)。這些豐富的組學數據為系統地描述分子機制和開發相關生物醫學應用提供了前所未有的機會。數據激增也給數據分析方面的研究人員提出了一個重大挑戰。

多年來,在克服這一挑戰取得了重大進展(圖1A)。最初,組學數據通常使用生物信息學家或計算生物學家用通用編程語言(如Python、R和Perl)編寫的內部腳本進行分析。一些專門的生物信息編程模塊集合,如Biopython、BioPerl、Bioconductor和ggplot,可以更容易地分析和可視化組學數據。然而,這些工具仍然需要用戶具備一些編程專業知識,這是許多實驗研究人員所不具備的。許多基於網絡的或獨立的生物信息學工具使用戶能夠在不需要大量編程技能的情況下對組學數據進行各種分析或可視化。然而,這些工具的用途有限,因為它們只支持一組預定義的分析。

近年來,兩種比較通用的生物信息學平台開始流行起來。一種是「模塊集線器」,如Galaxy和GenPattern,它們為用戶提供圖形基礎設施來組裝生物信息學管道並執行用戶定義的任務。另一種類型是「交互式數據門戶」,如cBioPortal和GTEx,它們側重於對預加載的數據集進行簡單的分析和可視化。儘管做出了這些令人印象深刻的努力,但除了跟蹤快速發展的工具和數據集的狀態和更新之外,用戶仍然需要花費大量的時間來識別合適的工具和學習不同的用戶界面/過程。因此,仍然有一個巨大的障礙阻止大多數研究人員(特別是那些沒有或有限的生物信息學和統計專業知識的人)以直接的方式充分利用組學數據。

DrBioRight,一個面向自然語言的智能分析原型

我們假設大多數常用的組學數據的標準分析可以使用自然語言有效進行。為了測試這一想法的可行性,我們開發了「DrBioRight」,這是一個面向自然語言、人工智能(AI)驅動的組學數據分析平台(https://drbioright.org)。DrBioRight由兩個子系統組成:一個用戶友好的web界面和一個後端計算服務器。與其他生物信息學工具相比,DrBioRight採用了一個簡單的在線聊天界面,只有一個輸入區和一個輸出區,與用戶的所有交互都基於人類語言(Fig1B)。用戶可以簡單地在輸入區輸入一個組學數據分析問題。例如,用戶可以輸入「perform survival analysis in breast cancer on TP53 gene expression」,檢測乳腺癌患者TP53基因表達水平與總體生存期之間是否存在相關性。在接收到輸入文本(Fig1C)後,DrBioRight將運行其自然語言處理(NLP)模塊對識別的實體進行標記,並基於輸入中識別的特徵,後端AI模塊將計算分數,預測最匹配的分析任務。然後,程序將調用特定的分析模塊,識別相關的數據集,並檢查所有所需的參數是否已填充。在提交計算任務之前,DrBioRight將要求用戶確認檢測到的任務是否確實是預期的分析。如果確認,作業調度程序將把任務提交到作業隊列,並使用雲計算節點來處理它。一旦工作完成,DrBioRight將調用一個適當的可視化模塊,並將結果(通常是交互式表或圖)發送到輸出區域的用戶。最後但同樣重要的是,DrBioRight將要求對每個成功執行的工作進行評級,由此收集到的反饋將用於進一步提高NLP和AI模塊的性能。重要的是,DrBioRight有一個靈活的模塊化框架,在此基礎上,只需兩個簡單的步驟就可以添加新的計算分析:添加必要的模塊,並使用自然人類語言訓練模塊。

通過面向自然語言的交互和人工智能驅動的模塊,DrBioRight在提高組學數據分析的效率和重現性方面具有巨大潛力。我們已經整理和加載了一些廣泛使用的癌症組學數據集,包括TCGA、ICGC和Cancer Cell Line Encyclopedia(總共20000多個樣本)。最初我們建立了10個分析模塊,涵蓋了最常見的組學分析,以及相關的可視化。使用這些模塊,用戶可以很容易地得到諸如「基因x和基因y在肝癌中的mRNA表達相關性是什麼?」以及「TP53突變與肺癌患者的總生存率之間是否存在相關性?」,並使用散點圖、Kaplan-Meier圖或箱形圖將結果可視化。此外,DrBioRight支持從原始下一代測序讀取的生物信息學分析。例如,用戶可以通過簡單地問:「你能做一個RNA測序分析嗎?」,然後提供原始數據的來源或位置(如SRA ID)。通過與DrBioRight的對話,用戶可以逐步完成整個分析,包括質量控制、讀圖、基因表達量化、差異表達分析、基因集富集分析。最後,DrBioRight讓用戶可以方便地檢查發布結果的重現性。為了證明這一點,我們關注了一篇經典的癌症基因組學論文,其中分析了560個乳腺癌全基因組的突變模式。從論文中加載已發表的數據集後,通過與DrBioRight的快速對話,可以輕鬆地複製主要圖形中的關鍵結果。這種並排對比不僅驗證了使用我們平台的結果,而且也突出了其提高研究可重複性的潛力。

下一代數據分析的關鍵特性

隨着DrBioRight的成功開發,並展示了其能力和實用性,我們提出了下一代數據分析應該具備的五個關鍵特性,這將使探索組學數據的方式更加直觀、高效、可靠(Fig1D)。

DrBioRight解讀自然語言(NLU)

人類語言是人與人之間最自然、最直觀的交流系統。為了服務於最廣泛的研究團體,必須使用自然人類語言(文本或聲音)作為直接輸入,將用戶的想法與下一代分析聯繫起來。通過整合NLU,將數據分析的溝通障礙降至最低,包括識別/確認用戶意圖,將其轉化為可執行的生物信息學分析任務。

人工智能(AI)

下一代分析應該使用數據驅動的預測模型來正確地翻譯用戶的意圖,識別適當的數據集和算法,並選擇信息可視化。重要的是,根據用戶的偏好和反饋,分析系統可以「在工作中學習」,並通過靈活的適應,利用這些經驗來提高其性能。

分析過程可重複

可重複性是當今生物醫學研究的一個主要問題。下一代分析應該能夠實時生成詳細的分析報告,而不是一個「黑盒子」。分析報告將包含關於數據集、處理過程和算法的詳細信息,確保執行的分析是透明的,獲得的結果是可重複的。提供允許用戶從已發表的研究中檢查組學結果的重現性的功能也很重要。

手機和社交媒體友好

智能手機作為最便捷的通訊工具,為研究人員提供了不受時間和地點限制的組學數據分析平台。下一代移動友好型分析將允許通過智能手機設備更靈活地進行數據分析和可視化。另一個值得期待的功能是啟用社交媒體功能。與Facebook messenger或Slack一樣,通過在線聊天界面,用戶不僅可以與分析工具展開一對一的對話,還可以邀請合作者加入「小組討論」,並一起探索結果。

開源

為了利用群體的智慧,下一代分析應該積極支持整個研究社區的開放開發,包括算法開發者、數據科學家、生物學家和臨床醫生的輸入。這需要建立一個開放的開發用戶中心,允許其他生物信息學家和軟件開發者(例如,通過Docker和GitHub)傳播和貢獻軟件,以及一個數據共享系統,允許用戶共享他們的私人數據供第三方使用。

邁向組學研究的新範式

有了上述功能,下一代分析將成為智能合作夥伴,而不是工具,與人類研究人員一起探索、分析和解釋組學數據。在這樣的分析平台中,AI模塊是靈活而強大的「大腦」,能夠進行各種前沿生物信息學分析,隨時掌握最新的知識和資源;NLU模塊允許研究人員以方便的對話形式與「大腦」進行有效溝通,類似於與生物信息學合作夥伴進行對話;社交媒體功能通過促進思想交流、工具/數據共享和團隊管理來促進團隊合作。隨着這些進展,我們設想了一個新的令人興奮的研究範式(圖1E):研究人員可以通過直接與數據分析人員「對話」來啟動一個項目,並及時獲得所需的組學分析;然後,他們可以在現有文獻的背景下解釋獲得的結果,甚至對已發表的結果進行重複性檢查;在分析過程中,分析還有助於利用社區中的各種資源(數據/工具/專業知識),以提高研究人員發現的質量和影響;最後,通過與實驗室自動化和自治系統的可能集成,分析可以指導實驗室機器人生成新的實驗數據,這些數據可以用於分析,以執行進一步的分析和測試新的假設。



小結

以上就是小編對這篇文獻的分享,如果想學習生信分析內容或有項目需要合作的話,歡迎長按識別下方二維碼聯繫我們!



微信公眾號 | 中科生信

新浪微博 |@中科生信

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()