close

本次小編分享一篇於2021年1月8號發表在Nucleic Acids Res上的文獻,影響因子16.974。該文獻是GenBank 官方發表的一篇闡述過去一年GenBank的發展以及一年來GenBank最新進展的文章,特別是關於SARS-CoV-2數據的存儲、提交以及檢索方式的更新。並且官方表示,如果在發表的研究中使用了GenBank數據庫,要求引用這篇文獻。







摘要




GenBank是一個全面的公共數據庫,包含478000個正式描述的物種的超過21億核苷酸序列的9.9萬億鹼基對。每日與歐洲核苷酸檔案庫(the European Nucleotide Archive)和日本DNA數據庫(the DNA Data Bank of Japan)進行數據交換,確保覆蓋全球的數據。最近的更新包括來自SARS-CoV-2病毒的新數據資源、對登革熱和SARS-CoV-2病毒NCBI提交門戶和相關提交嚮導的更新、病毒和原核生物的新分類查詢,以及EST和GSS序列的簡化提交流程。



介紹




GenBank是一個全面的核苷酸序列的公共數據庫,是一個支持注釋書目和生物建造的分布式的國家生物技術信息中心(NCBI),也是一個國家醫學圖書館(NLM),總部位於美國國家衛生研究院(NIH)。本文簡要回顧了過去一年GenBank的發展,總結了GenBank的最新進展。

下載數據庫的信息

NCBI以傳統的平面文件格式和結構化的ASN.1格式通過匿名FTP (ftp.ncbi.nlm.nih.gov/genbank)提供GenBank序列記錄。戒至2020年8月15日發布的數據,有3131個文件需要1461 GB的未壓縮磁盤存儲。此外,每天的GenBank增量更新文件包含最新版本以來的新記錄和更新記錄,可以在ftp.ncbi.nlm.nih.gov/genbank/daily-nc/以平面文件格式獲得。

GenBank的最新進展

SARS冠狀病毒資源

新冠狀病毒資源——為了應對2020年初出現的COVID-19大流行,以及伴隨而來的病毒序列數據的增加(圖2),NCBI提供了一些可用資源,以協助社區提交,NCBI現在提供了一個定製的(https://submit.ncbi.nlm.nih.gov/sarscov2/)SARS-CoV-2序列提交門戶。平均而言,該門戶在1-2小時內向提交者提供返回訪問,組裝的序列將用VADR進行注釋。使用這些門戶不僅確保序列數據可通過INSDC數據庫獲得,還可通過NCBI病毒資源、RefSeq、BLAST獲得。NCBI在一個(https://www.ncbi.nlm.nih.gov/sars-cov-2/)新的登陸頁面上收集了這些和其他與SARS-CoV-2有關的資源,除了幾個下載SARS-CoV-2數據、查看相關文獻等鏈接外,還包括指向上述資源的鏈接。


NCBI病毒——特別令人感興趣的是NCBI病毒資源中專門討論SARS-CoV-2的新部分。在上面討論的SARS-CoV-2登陸頁面上也會出現此頁面的鏈接。此頁用作SARS-CoV-2病毒的信息中心,並在一個表格中收集SARS-CoV-2的可用基因組和蛋白質,用戶可以根據16個屬性(包括序列長度、源地理區域和收集日期等)瀏覽和篩選。然後,用戶可以選擇、下載和排列這些數據,還可以構建系統發育樹。

NCBI數據集——NCBI數據集是一種新的實驗性產品,允許用戶使用web界面、API或UNIX/LINUX命令行工具(https://www.ncbi.nlm.nih.gov/datasets/)輕鬆下載複雜的基因組數據集。為了應對對SARS-CoV-2數據日益增長的需求,NCBI數據集現在包括一個專門的冠狀病毒頁面,提供超過18000個冠狀病毒基因組的下載,包括來自SARS-CoV-2的(https://www.ncbi.nlm.nih.gov/datasets/coronavirus/genomes)超過15000個完整基因組。除了基因組數據本身,這個界面還允許下載注釋SARS-CoV-2蛋白組合。

提交過程改進

提交網站更新——2020年,NCBI提交門戶網站(https://submit.ncbi.nlm.nih.gov)進行了幾次更新,以改善總體導航和易用性。主頁有一個新的、精簡的設計,它為提交者提供了公共數據類型的清晰起點,並提供了一個建議工具,允許提交者輸入數據類型並快速找到合適的流程。這個新界面的一部分是一系列幫助頁面(例如https://submit.ncbi.nlm.nih.gov/about/genbank/),其中顯示了提交者在開始提交之前應該準備好的項目列表,以及數據格式指南。一旦提交者開始一個過程,提交「嚮導」將指導他們完成各個步驟,並為該過程提供額外的幫助。

新提交嚮導——提交門戶提供了三個改進的嚮導來簡化提交:來自登革病毒序列的新嚮導、來自後生動物的線粒體細胞色素氧化酶(COX1)和處理二倍體基因組組裝的更新嚮導。這些類似的嚮導加快了提交過程,登革和COX1嚮導使用VADR和驗證功能提供自動功能注釋,使提交者不必提供自己的注釋。登革嚮導接受FASTA格式的序列,並要求提供以下來源信息:分離物、血清型/基因型、收集日期、宿主和收集國。COX1嚮導只接受後生動物(多細胞動物)的COX1基因序列,不能有任何側翼序列。如果該生物不在NCBI分類數據庫中,提交者應提供該生物的分離或標本憑證,並提供線粒體遺傳密碼。WGS嚮導(https://submit.ncbi.nlm.nih.gov/subs/genome/)現在包括更好地處理來自二倍體基因組組合的初級和備用單倍型。這些改進減少了以前提交所需的手工管理數量,並最小化了提交所需的步驟。

簡化EST, GSS和HTG提交——如前所述,EST和GSS序列現在與所有其他GenBank(和INSDC)序列合併在核苷酸數據庫中。同樣,EST和GSS序列的提交者現在可以使用標準BankIt工具,將EST和GSS提交作為標準GenBank提交處理(https://submit.ncbi.nlm.nih.gov/about/bankit/)。我們希望HTG序列的提交者也能在2021年初使用GenBank標準提交門戶。

改進的分類搜索

病毒——NCBI分類法(https://www.ncbi.nlm.nih.gov/taxonomy/)現在支持基於巴爾的摩分類法的病毒名稱的新的Entrez搜索查詢,該分類法根據病毒的核酸(DNA或RNA)鏈(單鏈或雙鏈)、翻譯方向和複製方法(表2)對病毒進行分組。NCBI分類法用國際病毒分類委員會(ICTV)提供的基於進化關係的分級分類法取代了巴爾的摩分類法。雖然進化關係不一定會反映出來,但Baltimore搜索詞仍然在使用,並可以提供功能上下文。關於NCBI分類學中的病毒的更多細節在其他地方提供。

原核生物——NCBI分類學還擴展了Entrez搜索詞,以發現未根據國際原核生物命名規則(ICNP)有效出版的細菌和古細菌名稱。未列入1980年批准名稱清單或未直接發表在國際系統與進化微生物雜誌(IJSEM)上的原核生物名稱可以通過列入隨後發表在IJSEM上的驗證清單進行驗證。在此之前,它們被認為是「有效出版」的,在ICNP的命名中沒有地位。這些名字在NCBI分類法中顯示,但現在可以在Entrez分類法中使用搜索詞過濾它們:effective current name[filter]。同樣,一些未經培養的原核生物分類群的候選物種名稱,並沒有根據本守則有效公布,現在也可在entz Taxonomy中檢索:candidatus current name[filter]。

官方給提交者的建議

如前所述,我們繼續鼓勵提交者提供上下文元數據,以支持進一步使用和分析數據(例如,抽樣地點的國家、緯度和經度)以及其他數據(如獨立名稱或數字加上適用的博物館/收藏標識符)。我們還敦促提交者使用證據標籤來提供關於支持標註證據的信息(https://www.ncbi.nlm.nih.gov/genbank/evidence/)。如果提交者在提交前已經使用了現有的公共測序reads來提高其組件的質量,我們鼓勵提交者在提交中引用這些reads的登錄號。當提交原核基因組時,我們鼓勵提交者要麼使用NCBI原核基因組注釋管道(https://www.ncbi.nlm.nih.gov/genome/annotation_prok/)注釋他們的基因組,要麼要求NCBI在基因組發布前注釋。

NCBI強烈鼓勵提交人在(https://www.ncbi.nlm.nih.gov/bioproject)BioProject數據庫中註冊測序項目,並在相關出版物發布後更新他們的BioProject記錄。這樣做在測序項目和它們產生的數據之間提供了可靠的聯繫,還可能允許連接到BioSample數據庫,該數據庫提供關於研究中使用的生物材料的額外信息。最後,我們會提醒提提交者在他們的數據公布時通知GenBank,這樣我們可以確保他們的數據及時公布。





以上就是小編對GenBank數據庫的介紹,如果老師想學習更多生信知識或生信方面的分析內容的話,歡迎長按識別二維碼聯繫我們!








ZKSXYYDS!

微信公眾號

中科生信

新浪微博

@中科生信

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()