close

近日,華大智造研發團隊在Nature子刊Nature Machine Intelligence(IF=25.898)上在線發表了題為Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale的研究成果。研究人員開發了一種基於對比學習的多模態單細胞算法工具——Concerto (協奏曲)。「協奏曲」的命名, 既包含了「對比學習建模細胞表徵」的英文首字母,又暗含了組織器官中不同類型、不同狀態的細胞協同發揮作用之意。該算法通過自監督訓練的方式,可快速對千萬級無標註的單細胞多組學數據進行建模,得到的細胞表徵(cell embedding)可以用於自動注釋、多模態整合、聚類、跨批次整合、參考映射注釋等下游應用。Concerto在各項任務中都展現了優異的性能,進一步豐富了單細胞大數據領域的算法工具。


研究背景

單細胞多組學工具在解析細胞多樣性的研究中發揮着至關重要的作用,可繪製單細胞水平的多組學圖譜,進而從多模態角度揭示細胞功能或狀態的異質性。百萬甚至千萬級別的單細胞多組學大數據需要通過智能高效的計算工具助力科學發現,定義細胞類型和狀態。同時,已發表的大量未經人工注釋或者注釋顆粒度不夠精細的數據集本身也是寶貴的資源,若加以有效利用,可以幫助快速解讀新產生的數據集。

目前主流的單細胞數據分析工具大多依賴於統計學特徵選擇(如高可變基因)和線性降維方法(如主成分分析PCA[1])來提取關鍵信息,但該預處理方法可能會造成信息量丟失。此外,單細胞數據集不可避免地存在不同程度的批次效應,在數據整合的過程中需要在保留每個樣本包含的細微生物學狀態差異前提下完成批次效應的適度去除。隨着單細胞大數據時代的到來,亟需可快速構建千萬級別單細胞多模態圖譜並可實現映射注釋的算法。

華大智造自主開發的Concerto算法,採用人工智能領域新興的對比自監督學習框架並進行優化適配,以應用在海量單細胞組學數據的建模中。何謂對比學習?簡而言之,就是構造一個直觀簡潔的學習任務,讓機器去對比和區分哪些樣本與哪些樣本相似,哪些樣本與哪些樣本不相似,從而學習到每個樣本蘊含的高階特徵。這就好比是試圖理解世界的嬰兒,即使還未建立起認知世界的知識框架,也可能會意識到,相比於「史努比」,「加菲貓」和「黑貓警長」長得更像。嬰兒通過比較不同物體之間的異同,或許可以學習到這些物體最重要的特徵。

對比學習示意圖

相比於傳統的監督學習,在自監督學習中,機器學習的標籤來自於樣本自身。在真實世界中,有標籤或者說有高質量標籤的數據集是稀缺的,通過對比學習這樣的自監督訓練框架,可以很好地利用大量真實世界未注釋的數據集。在機器視覺領域,Google和Meta近年來相繼提出多種對比自監督學習算法,包括SimCLR[2]、 MoCo[3]等。在ImageNet分類基準測試中,最新的自監督算法甚至能優於有監督的基線方法。正如圖靈獎得主Yann LeCun所預測,自監督學習是AI的未來,它就像人一樣自覺觀察數據,可能使AI產生類人的推理能力。

在生物學領域,通過新興的單細胞、時空組學工具獲得的全新數據集,大大拓展了人類對於複雜生物系統的認知,這些數據還有大量未被人類標記或僅僅是依賴於已有知識進行注釋。借鑑機器學習領域中不依賴標籤數據的智能建模思想,以無偏的方式去利用好這些全新的單細胞數據,可以幫助科學家發現新的細胞類型、細胞狀態,進而重新定義細胞類型。華大智造團隊通過構造對比學習任務,讓每個細胞自己跟自己「學習」,類似的細胞離得更近,不類似的細胞離得更遠,從而實現對千萬級別單細胞數據的快速建模。基於華大智造自主研發的便攜、易用、經濟友好的DNBelab C4單細胞建庫平台,結合GPU的使用,利用Concerto構建千萬級別的單細胞參考集僅需1.5h,快速注釋5萬個細胞僅需8s。同時,該模型可以整合不同模態、不同批次、不同測序平台和不同單細胞建庫的方法。值得一提的是,Concerto的對比學習架構可以有效支持將一個細胞的所有基因作為輸入建模,避免了直接降維過程中的信息丟失,同時該優勢對於跨數據集的遷移注釋至關重要,可以更好地擴展跨數據集間可利用的交集基因信息。

華大智造DNBelab C4

Concerto模型架構

具體而言,研究團隊對每個細胞通過非對稱的「雙塔」蒸餾模型框架,並借鑑自然語言處理技術中的隱空間Dropout策略[4],得到一個細胞的兩個不同表徵(cell embedding)並使其互為正樣本,而與其他細胞則互為負樣本。通過對比學習在超球面空間[5]上將正樣本拉近,負樣本推開,從而學習到高質量的細胞表徵(圖1a)。經過Concerto訓練好的細胞表徵,可以在zero-shot或者few-shot的場景下應用於多種下游分析任務(圖1c)。

圖1 Concerto模型的結構示意圖

Concerto整合單細胞多模態數據

在RNA和蛋白同時測序的人類外周血單核細胞數據集中(PBMC160K),作者利用Concerto進行多模態數據整合,作者發現:細胞的不同模態信息反應了之前科學家定義的不同細胞分類的顆粒度和類型。例如:CD4 T細胞和CD8 T細胞在只用RNA模態的情況下,不能很好地區分,需要加上蛋白的信息;而如果只用蛋白的模態,單核細胞monocytes和樹突狀DC細胞不能很好地分開,需要加上RNA的信息(圖2)。Concerto在整合了RNA和蛋白質兩個模態後,學到了更好的細胞表徵:細胞大類和存在細微生物差異的細胞亞群都被很好地區分,而且也很好地捕捉到了細胞發育的軌跡。如CD8 T細胞譜系,可以看到CD8 naïve — CD8 TCM — CD8 TEM的軌跡,並且可以通過高維超球面空間到二維的映射看出,殺傷性的T細胞和NK細胞的距離更近,說明Concerto學習到的映射空間可以將功能接近的細胞互相靠近。

圖2 Concerto在RNA、蛋白、RNA+蛋白三種設置下學到的細胞表徵

在遷移注釋任務的表現

在公開的胰島細胞數據集上(HP)遷移注釋任務中,與目前主流單細胞遷移注釋算法比較,Concerto準確率最高(圖3),超過了紐約基因組中心Rahul Satija團隊開發的Seurat V4[6]、德國亥姆霍茲慕尼黑中心Fabian Theis團隊開發的scArches[7]以及Broad研究所Soumya Raychaudhuri團隊開發的Symphony[8]。人類胰島數據集(HP)包括5種單細胞測序方法得到的數據,Concerto整合4種技術構建了一個參考空間,在這個過程中沒有用到任何標籤信息,只是「each cell learns from itself」。然後把待注釋的數據投射到這個參考空間,每個待注釋的細胞都可以「找到」在參考空間裡和它最像的k個參考細胞,最後只需要綜合這k個參考細胞的信息就可以為待注釋細胞打上注釋。另外,Concerto除了可以跨技術平台進行遷移注釋,也可以跨物種進行遷移注釋。圖3右展示了Concerto利用HP數據構建參考空間,對鼠胰島(MP)細胞進行注釋的性能。

圖3 胰島數據集上遷移注釋性能比較,

華大智造Concerto模型準確率超過現有方法

就像序列比對工具BLAST 將生物序列數據比對到參考基因組的功能一樣,將新產出的包含不同樣本、研究、疾病狀態的單細胞數據集,映射到複雜的、數百萬細胞的參考圖譜上,可以實現快速識別相關的細胞狀態和表型,此種方法將成為單細胞數據分析的全新範式。本研究另一亮點在於,利用現有已注釋數據構建大型的細胞圖譜作為參考(Reference),新的數據作為查詢(query),可以直接在Reference上「查找」最相近的「已知「細胞,這樣我們就可以知道query細胞的性質了。

構建百萬級別免疫細胞參考圖譜,對新冠數據進行快速注釋

在COVID-19研究中,研究人員將華大智造DNBelab C4產出的新冠病人外周血單核細胞(PBMC)數據與其他研究小組已發表的通過其他平台所採集的數據進行整合,構建了大型新冠病人外周血免疫細胞參考圖譜,涵蓋了健康人及輕型、重型COVID-19患者,並針對查詢數據集進行快速注釋,發現不同感染狀態差異的免疫學信號。由於在參考數據中存在與查詢數據類似的與疾病相關的細胞狀態,所以Concerto可以快速將查詢新冠數據集映射到參考圖譜上。Schulte-Schrepping等人[9]的研究主要針對髓系細胞,如單核細胞monocytes和中性粒細胞neutrophils在不同感染狀態下的差異。通過參考映射的快速注釋,復現了該數據集的淋系細胞與其他新冠研究里的一致信號,如Concerto注釋了稀有細胞亞群proliferative-exhausted CD8 T,與Su[10]等人的研究一致。

此前,深圳華大生命科學研究院劉龍奇團隊聯合中國疾控中心等機構科學家利用華大智造C4單細胞平台進行了大規模的新冠研究[11],注釋出了activated CD4 T細胞,並發現這種細胞的豐度會在患者體內上調。此次,利用Concerto構建的新冠參考數據集包含了這種細胞類型,也成功在Schulte-Schrepping的數據集中注釋出activated CD4 T細胞,同時發現Schulte-Schrepping數據集中新冠患者的activated CD4 T細胞差異高表達CD2AP基因,也與此前華大研究院等人的發現一致。通過此項研究也證明,華大智造C4平台產出的數據可以和其他平台適配。將來科研人員可以利用Concerto構建整合不同單細胞數據產出平台的大型參考數據集,用以對新產出的數據進行快速注釋。

圖4 將健康人與COVID-19患者整合的參考數據集對查詢數據集進行遷移注釋

華大智造高級副總裁倪鳴博士表示:「單細胞組學的研究已進入高通量、大數據、多模態的研究階段,此次基於對比學習的最新人工智能方法Concerto 用於單細胞參考數據集映射注釋成果的發布,豐富了華大智造此前自主研發DNBelab C4單細胞平台,實現了單細胞組學領域硬件與軟件的深度結合,相信未來會在單細胞領域賦能更多用戶。」

單細胞多組學時代的來臨,使得重新定義細胞成為可能。華大集團聯合創始人、董事長汪建曾提出 「六定」:定性、定量、定位、定時、定向、定標。未來,華大智造將繼續開發用於單細胞多組學研究的硬件、試劑、軟件工具,支持科研人員提高研究效率、拓展探索的邊界。


華大智造楊夢、楊悅羽霄、謝辰熙是文章的第一作者
本研究所使用數據均來自公開已發表數據

參考文獻

[1]Abdi, H. & Williams, L. J. Principal component analysis. Wiley Interdiscip.

Rev. Comput. Stat. 2, 433–459 (2010).

[2]Chen, T., Kornblith, S., Norouzi, M. & Hinton, G. A simple framework for

contrastive learning of visual representations in International Conference on

Machine Learning 1597–1607 (PMLR, 2020).

[3]He, K., Fan, H., Wu, Y., Xie, S. & Girshick, R. Momentum contrast for

unsupervised visual representation learning in Proceedings of the IEEE/CVF

Conference on Computer Vision and Pattern Recognition 9729–9738 (IEEE,

2020).

[4]Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R.

Dropout: a simple way to prevent neural networks from overfitting. J. Mach.

Learn. Res. 15, 1929–1958 (2014).

[5]Wang, T. & Isola, P. Understanding contrastive representation learning

through alignment and uniformity on the hypersphere. In International

Conference on Machine Learning 9929–9939 (PMLR, 2020).

[6]Hao, Y. et al. Integrated analysis of multimodal single-cell data. Cell 184,

3573–3587.e29 (2021).

[7]Lotfollahi, M. et al. Mapping single-cell data to reference atlases by transfer

learning. Nat. Biotechnol. 40, 121–130 (2022).

[8]Kang, J. B. et al. Efficient and precise single-cell reference atlas mapping with

Symphony. Nat. Commun. 12, 1–21 (2021).

[9]Schulte-Schrepping, J. et al. Severe COVID-19 is marked by a dysregulated

myeloid cell compartment. Cell 182, 1419–1440 (2020).

[10]Su, Y. et al. Multi-omics resolves a sharp disease-state shift between mild and

moderate COVID-19. Cell 183, 1479–1495 (2020).

[11] Zhu, L. et al. Single-cell sequencing of peripheral mononuclear cells reveals

distinct immune response landscapes of COVID-19 and influenza patients.

Immunity 53, 685–696 (2020).


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()