close

關注下方公眾號,get更多生信技能☟☟☟


TCGA數據庫在2022年4月初進行更新之後,RNAseq的數據格式發生了很大變化,給我們廣大的科研工作者帶來了極大的不便。小編也是在第一時間給大家展示了TCGA數據庫的變化,用圖文的方式詳細介紹了新版TCGA數據庫RNAseq數據下載方法。

☞TCGA數據庫悄咪咪更新了—RNAseq沒有HTSeq-Counts了

小編也針對新版TCGA數據庫格式,為各位小夥伴提供了兩種合併新版TCGA中RNAseq表達譜數據的方法

☞R代碼合併新版TCGA數據庫RNAseq表達譜數據

☞零代碼合併新版TCGA數據庫RNAseq表達譜數據

最近小編在基於合併的表達譜數據做下游分析的時候,發現了一個很詭異的事情。想把合併的表達矩陣再讀到R裡面,得到了一個error

count=read.table("RNAseq_STARcounts.txt",header=T,sep="\t",row.names=1)

一開始不能接受這個事實,理論上導出來的矩陣帶有行名,沒有報錯。為什麼再讀進去會報這個錯了。冷靜下來,去找原因。我們從最開始的count文件開始查找。一頓操作猛如虎,基因名字數一數。這一數還真有重複。這個文件原本基因名字是沒有重複的,只是在我們處理的過程中產生的重複。怎麼聽起來這麼像魯迅先生的說過的一句話。問題的元兇長這樣的。

PAR_Y是個什麼鬼,擺渡一下。

PAR(Pseudoautosomal Region,擬常染色體區域)。X和Y染色體上與常染色體同源的區域。發現3段PAR: PAR1, PAR2和PAR3。

PAR1和PAR2位置分別為:

chrY:10,000-2,781,479 and chrY:56,887,902-57,217,415

chrX:10,000-2,781,479 and chrX:155,701,382-156,030,895

這個應該是根mapping時用到的reference相關的,既然Y染色體上有根常染色體同源的區域。那麼比對的時候,能比對到常染色體上的reads,也可以比對到Y染色體上相應的同源區域。一般我們製作reference的時候會排除PAR。count文件裡面雖然有帶PAR的基因,但是表達量都是0。不僅沒有實質性的作用,還在這裡添亂。查了一下,一共44個這樣的害群之馬。

接下來,我們把這44個帶PAR的基因刪掉。至於刪除的方法,有兩種。都會用到我們前面介紹過的正則表達式

☞正則表達式

☞R中的替換函數gsub

1)正向篩選,篩選匹配ENSG+數字+.+數字的基因名,保留。

2)反向篩選,篩選以_PAR_Y為後綴的基因名字,刪除。

這裡小編用的第一種方法,因為這種方法篩選出來的肯定是正常的基因名。而第二種方法,不能排除其他的幺蛾子。但是小編可以負責人的告訴大家,目前TCGA中RNAseq的數據,只有這44個基因是幺蛾子,所以兩種方法的結果是一樣的。篩選前基因總數60660,刪選之後基因總數60616,正好差值44。

我們在來驗收一下,沒有任何問題。刪除重複基因之後,可以順利讀到R裡面,基因名作為行名。

注意:小編已經更新了R代碼和零代碼合併工具,已付費用戶可以原鏈接下載更新後的代碼和工具,鏈接參考下面兩篇文章。

☞R代碼合併新版TCGA數據庫RNAseq表達譜數據

☞零代碼合併新版TCGA數據庫RNAseq表達譜數據

後記:小編也是一個普普通通的人,肯定會有考慮不周的地方。熟話說,知錯能改,善莫大焉。大家如果發現其他bug,請給小編留言。小編一定與時俱進,第一時間亡羊補牢!

為了方便大家交流學習,共同進步,我特地創建了微信交流群

後台留言「生信交流群」入群


往期內容(點擊圖片獲取相關信息)

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()