解螺旋 - 超出你想象！高分預後模型構建，別人R代碼跑一天，今天零代碼教你一小時搞定！－鑽石舞台

預後模型的構建

好消息！好消息！仙桃學術可以做預後模型的文章啦！！

今天讓我們通過2021年7月發表在Frontiers in Genetics(IF:4.599)上的文章「Esophageal Cancer Associated Immune Genes as Biomarkers for Predicting Outcome in Upper Gastrointestinal Tumors」來看看如何構建並驗證預後模型的吧~

期刊簡介

要素拆解

題目：食管癌相關免疫基因作為預測上消化道腫瘤預後的生物標誌物

疾病：食管癌（esophageal cancer，EC），頭頸癌 (HNSC) 和胃癌 (GC)- 上消化道腫瘤

數據來源：TCGA-ESCA, TCGA-HNSC, GEO（GSE62245, GSE14210, GSE15459, GSE22377, GSE29272, GSE51105）

背景知識

臨床預測模型（Clinical Prediction Models），是指利用多因素模型估算患有某病的概率或者將來某結局發生的概率。臨床預測模型包括診斷模型（Diagnosticmodels）和預後模型（Prognostic models）。

診斷模型關注的是基於研究對象的臨床症狀和特徵，診斷當前患有某種疾病的概率，多見於橫斷面研究。

預後模型關注的是在當下的疾病狀態下，未來某段時間內疾病復發、死亡，傷殘以及出現併發症等結局的概率，多見於隊列研究。

預後模型驗證常見有三種方法，醫學生信文章中常用的也就是這三種方法。

1 內部驗證

常見的方法就是將隊列分成2部分（通常按2：1的比例分組），然後使用第一部分的數據建立模型，用第二部分的數據來驗證模型。這種方法的得到的結果往往會比較好，因為2個隊列的人群很相似。

2 時間驗證

時間驗證和將整個隊列根據時間順序進行分組在本質上沒有什麼不同。但是時間驗證是對模型的前瞻性評估，它獨立於建模的數據和建模的過程，所以有時可以看作是外部驗證。因此，時間驗證是介於內部驗證和外部驗證之間的一種方法。

3 外部驗證

內部驗證和時間驗證都無法檢測模型的普遍適用性，因為這需要使用來源不同的數據來進行驗證。

生信文章中最常見的就是第3種方法，而且這種方法非常受審稿人的青睞。

數據解讀

本文一共有4個圖2個表１個附圖。作者首先構建免疫評分(IRSS)模型（圖1），然後進行GO／KEGG富集分析（圖2）以證明與免疫相關，並提供TCGA-ESCA的臨床基線資料表（表1），分析模型的準確性（圖３），最後通過TCGA-HNSC來驗證模型的可靠性（圖4），還通過GEO的胃癌數據進一步驗證模型的可靠性（附圖１）。

圖1 | 建立ESCA免疫風險(IRSS)模型

圖2 | GO/KEGG分析

圖3 | IRSS模型的評估以及列線圖的建立和評估

表1 | EC 臨床病理特徵相關的單因素/多因素Cox 回歸分析

圖4 | 使用TCGA-HNSC驗證IRSS模型

復現工具

仙桃學術工具（https://www.xiantao.love/products）

文章復現

圖1|建立ESCA免疫風險(IRSS)模型

圖1A差異基因火山圖

仙桃學術（https://www.xiantao.love/），點擊【生信工具】

【高級版】 → 【立即使用】

註：免費版和基礎版都可以進行統計和可視化，由於高級版功能最全，這裡選擇高級版作為範例

【表達差異（挑）】 → 【差異分析】 → 【篩選分子】 → 選擇【TCGA-ESCA】→ 選擇【臨床-status】並分組為Normal和Tumor → 【確認】

在【歷史記錄】中，待狀態為【完成】時，即可【下載】結果，這裡我們【Excel表格下載】

打開結果，保留【gene_name】, 【log2FoldChange】, 【pvalue】, 【padj】這4列，刪除其他列，將文件保存為「DEG.csv」

【表達差異（挑）】 → 【火山圖】 → 上傳「DEG.csv」 → 【確認】→ 下載結果即為圖1A

圖1B差異基因與免疫相關基因的韋恩圖

用Excel打開「DEG.csv」，篩選Log2|FC| > 1 且 padj< 0.01的基因，將基因名複製粘貼到一個新的文件「DEG and Immport.xlsx」

按照文章所述的方法，從文章附件中下載免疫相關的數據

將附件中的基因名也複製粘貼到「DEG and Immport.xlsx」

回到仙桃學術，【基礎繪圖】 → 【韋恩圖】 → 上傳「DEG and Immport.xlsx」 → 【確認】→ 下載結果即為圖1B

圖1C LASSO 模型中參數選擇的十次交叉驗證

382個基因做lasso分析還是太多了，這裡我們通過篩選預後分子來進一步篩選一下。

【臨床意義（靠）】 → 【預後分析】 → 【篩選預後分子】 → 【確認】，等待幾分鐘

在【歷史記錄】中，等到狀態為【完成】時，即可【下載】，這裡我們【Excel表格下載】

將篩選的預後分子與DEG and Immport的分子取交集。

回到仙桃學術，【基礎繪圖】 → 【韋恩圖】 → 上傳「Lasso data.xlsx」 → 【確認】→ 【Excel表格下載】

交集基因即可作為lasso分析的輸入分子

【臨床意義（靠）】 → 【預後分析】 → 【[雲]Lasso係數篩選】 → 將上一步韋恩圖的交集基因粘貼到分子list → 【確認】，即可得到圖1C

這裡記得【保存結果】方便繪製圖1D，下載【RiskScore.xlsx】,方便後面繪製圖1E

圖1D LASSO係數分布圖

【臨床意義（靠）】 → 【預後分析】 → 【Lasso變量軌跡圖】 → 選擇剛剛得到的lasso結果 → 【確認】 → 即為圖1D

圖1E 風險因子圖

打開下載的「RiskScore.xslx」

將【lasso.risk.score】列調到第3列的位置，並將列名改為【RiskScore】,並保存為「RiskScore.xslx」

【臨床意義（靠）】 → 【預後分析】 → 【風險因子圖】 → 上傳前面下載的「RiskScore.xslx」 → 【確認】 → 即為圖1E

圖2| GO/KEGG分析

打開圖1中保存的「DEG.csv」，篩選Log2|FC| > 2， padj< 0.01的protein_coding基因，複製所有篩選的基因名

【功能聚類（圈）】 → 【GO|KEGG】 → 【GO|KEGG富集分析】 → 粘貼剛剛複製的基因名 → 選擇【全部GO條目】 → 【確認】 → 保存結果為「GO」

選擇【KEGG條目】 → 【確認】 → 保存結果為「KEGG」

【功能聚類（圈）】 → 【GO|KEGG】 → 【GO|KEGG可視化】 → 選擇【GO】 → 【確認】 → 即為圖2A

選擇【KEGG】 → 【確認】 → 即為圖2B

圖3 | IRSS模型的評估以及列線圖的建立和評估

圖3A KM生存曲線

打開圖1下載的「RiskScore.xslx」,僅保留【event】,【time】,【lasso.risk.score】三列, 並將文件另存為「KM.txt」

【基礎繪圖】 → 【生存曲線-二分類/數值/單組】 → 上傳「KM.txt」 → 分組選擇【0-50 vs 50-100】→ 【確認】即為圖３A，可【保存結果】或【下載圖片】

圖3B時間依賴性 ROC 曲線

【基礎繪圖】 → 【時間依賴ROC】 → 上傳「KM.txt」 →選擇預測年限【２年】【３年】【５年】 → 【確認】即為圖３B，可【保存結果】或【下載圖片】

圖3C用於預測 EC 的 OS 的2年、3年和5年列線圖

【臨床意義（靠）】 → 【預後分析】 → 【預後列線圖】 → 選擇【TCGA-ESCA】→ 選擇需要畫入列線圖的指標 → 選擇預測年限【２年】【３年】【５年】 → 【確認】

下載圖片即為圖3C，這裡記得下載「RiskScore.xlsx」以便繪製圖3D。

圖3D 用於評估 IRSS 和列線圖的DCA曲線

打開圖3A的數據「KM.txt」,將其另存為「IRSS for DCA.xlsx」。

【臨床意義（靠）】 → 【預後分析】 → 【預後DCA圖】 → 上傳「IRSS for DCA.xlsx」 → 【確認】即為IRSS的DCA圖。

（註：目前DCA圖只支持一條曲線，以後將更新多條曲線的DCA圖，敬請期待哦）

打開圖3C下載的「RiskScore.xlsx」，刪除第一列「sample_id」,僅保留其他3列，將文件另存為「nomogram for DCA.xlsx」

【臨床意義（靠）】 → 【預後分析】 → 【預後DCA圖】 → 上傳「nomogram for DCA.xlsx」 → 【確認】即為nomogram的DCA圖。

表1 | EC 臨床病理特徵相關的單因素/多因素Cox 回歸分析

【臨床意義（靠）】 → 【預後分析】 → 【單｜多因素cox回歸】 → 選擇【TCGA-ESCA】→ 選擇需要的指標 → 選擇【OS】 → 【確認】即為表１

圖4 | 使用 TCGA-HNSC 驗證 IRSS模型

圖4是利用TCGA-HNSC來驗證前面TCGA-ESCA的模型構建的準確性，因此，用類似圖1-3的方法，將疾病換為TCGA-HNSC,即可畫出圖4。

本文亮點

通過分析食管癌的差異基因，與免疫相關基因取交集，來獲得免疫相關的預後標誌物

經過單因素cox、多因素cox和lasso回歸分析，從諸多基因中篩選出6個基因建立了免疫風險的預後模型（IRSS）

通過食管癌建立的IRSS模型，在頭頸癌和胃癌等外部數據集來驗證模型的準確性，將模型擴展到上消化道腫瘤

思路擴展

2021年7月在Mol Ther Nucleic Acids上發表的「An immunogenomic signature for molecular classification in hepatocellular carcinoma」

文章基於免疫特徵研究肝細胞癌 (HCC) 的分子分類及其預後價值。基因集富集分析 (GSEA)用於計算兩個數據庫（TCGA和RIKEN_JP）中 HCC的免疫途徑評分。根據免疫特徵將樣本分了免疫高(Immunity_H)、免疫中(Immunity_M)和免疫低(Immunity_L)3個分類，並驗證分類的可靠性和可預測性。

2021年8月在Molecular Oncology上發表的「SLUG-related partial epithelial-to-mesenchymal transition is a transcriptomic prognosticator of head and neck cancer survival」