從孟德爾的豌豆到人類的遺傳病中提到的,在遺傳病患者中,根據人群頻率(Frequency in unselected individuals)篩選候選變異是發現致病變異(Causal variants)的任何一種數據分析流程中關鍵的一步,並且這種篩選的效果取決於所使用的參考數據的大小和族群的多樣性(Nature, 2016, Monkol Lek)。
The mutational constraint spectrumquantified from variation in 141,456 humans
因此我們希望這個參考數據庫:納入的個體數量足夠大、患病比例的偏差足夠低、族群的多樣性足夠好、測序深度足夠高、最終記錄的位點數足夠多。 如果是外顯子組,理想的記錄的位點個數約為3,000萬,即覆蓋全部蛋白編碼區域。這正是基因組聚合數據庫(Genome Aggregation Database, gnomAD)和千人基因組(1000 Genome, 1000G)計劃等數據庫的主要目標之一。 如果說OMIM可以報告一個疾病權威的致病位點,ClinVar可以幫助我們篩選更多的致病或可能的致病位點,那麼gnomAD數據庫則可以提供一個更全的(未來希望是任何)變異位點的人群變異頻率(可能均未被OMIM和ClinVar收錄)。這些數據庫均可對變異位點的篩選與最終的確定帶來幫助。 基因組聚合數據庫 (GenomeAggregationDatabase,gnomAD)是一個致力於從各種大規模測序項目中收集和協調外顯子組和基因組測序數據,並為更廣泛的科學界提供匯總數據的研究者聯盟。 外顯子組聚合聯盟 (Exome Aggregation Consortium, ExAC)是gnomAD的前身(第一個發布版),包含了大量自有的人類外顯子組數據。 gnomAD項目由Heidi Rehm和Mark Daly作為聯合理事(co-directors)共同監督,指導委員會成員包括Daniel MacArthur(實驗室主頁:https://macarthurlab.org/,會發布很多有關gnomAD的信息), Benjamin Neale, Michael Talkowski, Anne O'Donnell-Luria, Konrad Karczewski, Grace Tiao, Matthew Solomonson和Samantha Baxter。
Ability to understand genomes scales up
https://www.nature.com/articles/d41586-020-01485-4gnomAD(v3.1.1)基於GRCh38,其中短變異(short variant)數據集涵蓋了76,156個互不相關個體的基因組測序數據,是各種疾病特異性研究和群體遺傳研究的一部分。gnomAD(v2.1.1)基於GRCh37,其中短變異數據集涵蓋了125,748個外顯子和15,708個基因組,這些基因組來自作為各種疾病特異性研究和群體遺傳研究的一部分的不相關的個體,總計141,456個。1.http://www.gnomad-sg.org/2.http://gnomad.broadinstitute.org/博德研究所的這個站點在國內似乎經常無法訪問。其GATK相關站點有時也訪問不了,暫不清楚是什麼問題。上面gnomAD的兩個網站的數據是否等價也暫不清楚。總之第一個網站使用時看不出來有什麼問題,也被很多人使用。
http://www.gnomad-sg.org/variant/11-5227002-T-A?dataset=gnomad_r3gnomAD v2.1.1
http://www.gnomad-sg.org/variant/11-5248232-T-A?dataset=gnomad_r2_1有關最新版本的詳細信息,可參閱gnomAD v3.1博客文章。https://gnomad.broadinstitute.org/news/2020-10-gnomad-v3-1-new-content-methods-annotations-and-data-availability/gnomAD博客中以前版本(v3.0, v2.1)的詳細信息。https://gnomad.broadinstitute.org/news/gnomAD結構變異(SV)v2.1數據集基於GRCh37,涵蓋了10,847個不相關個體的基因組,這些個體的測序也是各種疾病特異性研究和群體遺傳研究的一部分。它大部分(但不是全部)與用於gnomAD短變異釋放的基因組集合重疊。gnomAD刪除了已知罹患重症兒科疾病的個體,以及他們的一級親屬,所以這些數據集可以作為對重症兒科疾病研究有用的等位基因頻率(Allele Frequencies, AF)參考集。然而仍需注意,一些患重症疾病的人仍然可能存在於數據集中,儘管其頻率可能相當於或低於普通人群的頻率。
來自這些項目的所有原始數據都通過等價的分析流程(equivalent pipelines)、平行的變異檢測(jointly variant-called)進行了再處理,以增加項目與項目之間的一致性(consistency across projects)。這一點非常重要,處理起來也有一定難度,否則QC時由於各個樣本測序深度和測序質量等的影響,合併的樣本越多記錄的位點可能越少。
gnomAD的數據處理流程是用WDL工作流程定義語言編寫(WDL workflow definition language, https://software.broadinstitute.org/wdl/)的,並使用了Cromwell執行引擎進行計算。Cromwell執行引擎是用於在多個平台上大規模定義和執行基因組分析工作流的開源項目。
https://support.terra.bio/hc/en-us/articles/360037487871-Execute-
https://cromwell.readthedocs.io/en/stable/
gnomAD經過了質量控制(QC),並使用Hail開源框架(https://hail.is/)進行分析,以確保可擴展的遺傳分析(這一點也非常重要,因為每次數據庫更新時樣本量都可能增加)。
Hail開源框架
gnomAD數據集包含使用多種外顯子組捕獲方法和測序化學方法來測序的個體,因此覆蓋範圍因個體和不同位點而異。測序覆蓋範圍內的每個變異均被整合,並參與變異頻率的計算。
gnomAD的SV檢測算法。gnomAD通過整合四種已發表的SV算法(Manta、DELLY、MELT和cn.MOPS)來識別7個突變類的SV,並在所有基因組中聯合過濾、基因分型、解析和注釋這些SV。gnomAD的SV檢測流程的軟件組件可以作為公共的共享方法,使用專用的Docker映像。gnomAD的SV論文的補充信息中提供了這一過程的廣泛技術細節(Nature, 2020. A structural variation reference for medical and population genetics)。可引用這篇論文以便使用SV數據。
gnomAD變異集(call set)的生成主要是由博得研究所(也開發了GATK等基因組分析工具集)資助的,這裡的數據是為了使更廣泛的生物醫學界獲益而公開發布的。對這些數據沒有出版限制或禁運(embargoes),也不受知識共享零公共領域奉獻(Creative Commons Zero Public Domain Dedication)的限制。這意味着可以將其用於任何目的,而無需在法律上給出歸屬。但需要積極承認並給予gnomAD項目的歸屬,並儘可能鏈接回相關頁面。支持未來發布其他數據,也減少了「孤兒數據(orphaned data)」的數量,幫助保留到權威來源的鏈接。對於這些數據的任何使用,可引用gnomAD的旗艦(flagship )論文:
The mutational constraint spectrum quantified from variation in 141,456 humans.Nature,2020.
https://www.nature.com/immersive/d42859-020-00002-x/index.htmlhttps://www.nature.com/articles/s41586-020-2308-7#citeasgnomAD的主要研究人員和小組的列表,為當前的版本提供了數據和分析: