close

本文約3200字,建議閱讀9分鐘

本文介紹了清華團隊在單細胞技術的最新進展。

單細胞技術的最新進展使得能夠在細胞水平上表徵表觀基因組異質性。鑑於細胞數量呈指數增長,迫切需要用於自動細胞類型注釋的計算方法。特別是,單細胞染色質可及性測序(scCAS)數據的注釋,它可以捕獲控制每種細胞類型轉錄的染色質調控景觀;然而,科學家對該領域的研究卻少之又少。

清華大學的研究人員提出了 EpiAnno,一種與貝葉斯神經網絡集成的概率生成模型,以有監督的方式自動注釋 scCAS 數據。他們系統地驗證了 EpiAnno 在各種數據集中,展現出的數據集內和數據集間注釋的卓越性能。

通過表達富集分析、分區遺傳力分析、增強子識別、順式可訪問性分析和通路富集分析,進一步證明了 EpiAnno 在可解釋嵌入和生物學意義方面的優勢。此外,研究人員表明 EpiAnno 具有揭示細胞類型特異性基序並促進 scCAS 數據模擬的潛力。

該研究以「Cell type annotation of single-cell chromatin accessibility data via supervised Bayesian embedding」為題,於 2022 年 2 月 10 日發布在《Nature Machine Intelligence》。

背景

單細胞測序技術的最新創新為揭示以前未知的細胞類型異質性提供了前所未有的機會,並徹底改變了對各種複雜組織的理解。為了識別單細胞數據集中存在的細胞群,典型的方法是無監督細胞聚類,然後將推定的細胞類型標籤分配給每個聚類。

然而,隨着被分析的單個細胞呈指數級增長,由於依賴於手動注釋,這種方法變得繁瑣、不可複製且耗時,手動注釋通常不是基於細胞標籤的標準本體,而是高度依賴於研究者關於特徵分子的背景知識。因此,需要對單個細胞進行自動細胞類型注釋。

目前,學界已經提出了幾種專門用於單細胞 RNA 測序(scRNA-seq)數據的細胞類型注釋的計算方法。這些方法可以分為三大類:

基於相似性的方法,例如scmap,它根據每個細胞與參考細胞之間的相似性將細胞映射到預定義的細胞類型;
基於標記基因的方法,例如 Garnett,通過以標記基因的形式結合先驗知識來注釋細胞類型;
基於監督學習的方法,例如 SuperCT,它通過機器學習方法和帶注釋的參考 scRNA-seq 數據對細胞進行分類。

儘管如此,絕大多數工作都集中在單細胞基因表達上,但尚未對單細胞染色質可及性測序(scCAS)數據的注釋進行充分研究。染色質可及性作為核大分子物理接觸 DNA 能力的量度,對於理解調控機制至關重要。scCAS 數據的細胞類型注釋可以捕獲控制每種細胞類型轉錄的染色質調控環境。

然而,scCAS 數據注釋比 scRNA-seq 數據注釋更具挑戰性,因為(1)文獻中的指南較少,(2)分析DNA時的低拷貝數導致僅捕獲1-10%的潛在可訪問區域,(3)與scRNA-seq數據中的基因不同,scCAS數據中捕獲的可訪問區域因數據集而異,(4)scCAS數據具有特定於分析的挑戰,包括其接近二進制性質、極端稀疏性以及比scRNA-seq數據高几十倍的維度。

因此,scCAS數據注釋通常通過三個主要步驟進行:

通過聚集每個基因轉錄起始位點(TSS)周圍的可訪問性得分,計算scCAS數據的基因水平染色質可訪問性得分;
使用scRNA-seq特異性方法通過細胞基質對獲得的基因的細胞類型標籤進行注釋;
手動查看注釋結果。

直觀地說,由於可訪問性分數的聚合,上述方法均不能充分利用 scCAS 數據中的固有信息,這表明對 scCAS 數據的自動細胞類型注釋的迫切需求。

在該研究中,研究人員提出了概率生成模型 EpiAnno,以更好地表徵細胞異質性並準確注釋 scCAS 數據中的細胞類型。EpiAnno 使用貝葉斯神經網絡將細胞嵌入到潛在空間中,其中細胞遵循高斯混合分布(每種細胞類型對應於潛在高斯分布)。

EpiAnno模型

EpiAnno 是一種基於模型的方法,用於在 scCAS 數據中表徵細胞並以監督方式注釋細胞類型。為了降低 scCAS 數據的噪聲水平,研究人員首先採用了類似於最近研究的峰值選擇策略。

然後,在實施模型之前,研究人員執行了詞頻-逆文檔頻率(TF-IDF)轉換,並計算了 z 分數以標準化 scCAS 數據矩陣。注意,數據處理是在訓練和測試集中獨立進行的。

如圖 1 所示,從概率生成的角度說明了:EpiAnno 首先根據給定的單元類型標籤,從一個潛在高斯分布中導出每個單元的潛在表示,然後使用非線性貝葉斯神經網絡將嵌入投影到scCAS數據的原始特徵/峰值空間。

貝葉斯神經網絡表徵高維 scCAS 數據並提供嵌入數據和歸一化數據之間的可解釋關聯,而潛在高斯混合分布用作基於細胞嵌入對細胞進行分類的判別模型。

潛在高斯分布的數量等於參考/訓練數據集中的細胞類型數量,並且 EpiAnno 的默認潛在維度設置為 10,如 SCALE 中一樣。藉助變分推理算法和集成學習策略,EpiAnno 可高效穩定地執行參數估計。

圖 1:EpiAnno 通過有監督的貝葉斯嵌入對 scCAS 數據的細胞類型進行注釋。(來源:論文)

EpiAnno 可實現準確且可解釋的注釋

研究人員首先使用數據集內的注釋作為概念證明,來展示 EpiAnno 的性能。他們收集了人類造血細胞數據集(稱為 CLP_LMPP_MPP 數據集),進行了五折交叉驗證實驗,將所有細胞隨機分成五折,並使用剩餘四折訓練的模型迭代預測每一折中細胞的細胞類型標籤。

使用 Cohen 的 kappa 值 (κ) 和中值 F1 分數 (mF1) 來評估注釋性能。EpiAnno 以11種基線方法為基準;其結果如圖 2a 所示,EpiAnno 實現了最佳且穩定的標註性能,而基線方法的性能在不同數據集之間波動。

圖 2:評估數據集內注釋性能。(來源:論文)

為了進一步證明 EpiAnno 在可解釋注釋方面的優勢,研究人員對小鼠前腦的轉座酶可訪問染色質 (ATAC)-seq 數據集進行了單核分析。

EpiAnno獲得了令人滿意的注釋性能,並捕獲了具有特定潛在特徵的不同細胞類型。

然後,研究人員根據相應特徵(方法)的負載確定了特定於細胞類型的峰,並可視化了每個細胞在這些峰中的讀取計數。

細胞類型特異性峰可以提供對細胞亞群的功能洞察:

首先,EpiAnno 鑑定的細胞類型特異性峰提供了組織特異性表達富集。
其次,EpiAnno 有助於表型的變異研究。
第三,EpiAnno 可以幫助定義候選細胞類型特異性調控元件,從而為基因調控機制提供新的見解。
第四,EpiAnno 有助於揭示特定細胞類型的共同可訪問站點。
第五,EpiAnno 識別的細胞類型特異性峰可以揭示細胞亞群的功能含義。

圖 3:EpiAnno 確定的細胞類型特異性峰的生物學意義。(來源:論文)

總而言之,EpiAnno 不僅可以準確注釋 scCAS 數據中的細胞,還可以提供可解釋的細胞嵌入和生物學意義。

EpiAnno 有效地注釋新測序數據中的細胞

然後,研究人員將 EpiAnno 應用於數據集間標註,這是一個更實際的應用場景。與大多數特徵/基因在數據集之間共享的 scRNA-seq 數據不同,scCAS 數據的特徵/峰值因數據集而異。

為了對 scCAS 數據啟用有監督的數據集間注釋,研究人員統一了訓練集和測試集的峰值,並關注訓練集和測試集之間共享的細胞類型的注釋性能,以及共享單元類型和測試集合唯一單元類型的注釋性能。

圖 4:評估數據集間注釋性能。(來源:論文)

如圖 4 所示,EpiAnno 在這兩個數據集上取得了整體最佳性能,進一步表明 EpiAnno 可以在更實際的數據集間注釋場景中有效地注釋細胞類型。

EpiAnno 揭示細胞類型特異性基序

基序富集分析是闡明特定環境的調節機制的基礎。研究人員使用全腦A數據集的細胞來說明 EpiAnno(數據集間注釋)的注釋結果可以有效地揭示細胞類型特定的基序。研究人員對 EpiAnno 注釋的共享細胞類型進行了基序富集,並可視化了前 50 個可變轉錄因子(TF)結合基序。

豐富的 TF 結合基序提供了直觀的細胞類型特異性可視化模式;進一步證實了這些 TF/基序在相應細胞類型中的作用。

圖 5 :基序富集分析和 scCAS 數據模擬。(來源:論文)

EpiAnno 促進 scCAS 數據模擬

已經為 scCAS 數據分析開發了一系列計算方法和流程,需要合成和可重複的數據集來指導實驗設計和基準測試穩健性。作為一種生成方法,經過訓練的 EpiAnno 模型可用於在與訓練數據相同的生物學條件下生成高保真合成數據。

在上述數據集間實驗中,研究人員使用前腦數據集訓練的 EpiAnno 模型,為每種類型的細胞生成峰值矩陣,其細胞數量與訓練數據中的細胞數相同。使用相同的訓練數據,研究人員還通過最先進的 scCAS 數據模擬框架 simATAC 模擬了每種類型的相同數量的細胞。

與 simATAC 類似,研究人員通過測序深度、數據稀疏性、峰值均值和細胞聚類來評估了模擬性能。

結語

基於對多個數據集的綜合實驗,研究人員證明 EpiAnno 在 scCAS 數據的數據集內和跨數據集注釋方面均優於基線方法。

與大多數計算方法不同,經過訓練的 EpiAnno 參數和學習的細胞嵌入是可解釋的,並且可以通過組織特異性表達富集分析、分區遺傳力分析、細胞類型特異性增強子識別和細胞類型特異性 cis-coaccessibility 分析揭示生物學見解。

此外,研究人員發現 EpiAnno 不僅具有揭示細胞類型特異性基序的潛力,而且為 scCAS 數據的模擬開闢了一條新途徑,這對於 scCAS 數據分析方法的發展至關重要。

論文鏈接:

https://www.nature.com/articles/s42256-021-00432-w

編輯:王菁
校對:龔力
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()