伯豪生物
机器学习建模结合免疫浸润分析探究胃癌患者预后及潜在治疗靶点
发布时间:2020-08-31 浏览次数:7075
具有完善基因表达数据和表型数据的大规模公共队列为开发肿瘤预后标志提供了可能。近年来,机器学习作为人工智能(AI)的分支,已经被成功用于建立肿瘤患者预后和治疗预测的模型。

1

客户单位: 厦门大学附属中山医院

期刊:Theranostics

影响因子:8.579

发表时间:2020.07.09

伯豪提供服务: 机器学习建模和免疫浸润分析


具有完善基因表达数据和表型数据的大规模公共队列为开发肿瘤预后标志提供了可能。近年来,机器学习作为人工智能(AI)的分支,已经被成功用于建立肿瘤患者预后和治疗预测的模型。与此同时,近年来人们逐渐了解到肿瘤微环境的复杂性和多样性,肿瘤微环境与肿瘤细胞相互作用,共同介导了肿瘤的免疫耐受,从而对肿瘤进程及治疗产生重要影响。在这项研究中,作者整合了多个队列和基因表达数据,开发验证了一个基于基因集的胃癌预后特征(GPSGC),然后进一步分析 GPSGC 风险评分与肿瘤微环境的关系,探讨了 GPSGC 评分相关的生存机制,并发现了潜在的治疗靶点。


01. 预后模型的建立

2

(1)发现阶段:对 TCGA 和 ACRG 数据库中的癌和癌旁进行基因差异表达分析,进一步通过 Cox 回归分析初步获得 22 个候选 marker。

(2)训练阶段:进一步应用 Stepwise Cox regression multivariate 分析筛选出基因组合,构建优秀的多元 Cox 回归模型。

risk score = (0.14121 * expression of VCAN) + (0.19095* expression of CLIP4) + (0.13633 * expression of MATN3)

利用 X -tile 软件获得的 cutoff(0.15),从而将 TCGA-STAD 和 ACRG 队列中的患者分为高风险组和低风险组。在 TCGA 队列中,高风险评分患者(22.8%)的总生存率(OS)较低风险评分患者(77.2%)短(HR=2.296;95%CI:1.513-3.485;P<0.0001);同样的,在 ACRG 队列中,高风险患者(30.7%)的 OS 较低风险患者(69.3%)短(HR=2.659;95%CI:1.836-3.849;P<0.0001)。

3


(3)验证阶段:为了确定 GPSGC 是否稳健,作者在三个独立的 GEO 队列中评估了 GPSGC 的性能,共包含 1057 名患者。与训练队列的结果一致,根据 GPSGC 被分配到高风险组的患者在多个 GEO 验证队列中的 OS 或 RFS 明显比那些被分配到低风险组的患者差。

4


为了探讨 GPSGC 的预后价值是否独立于其他临床因素,作者进行了多因素 Cox 回归分析,结果表明,GPSGC 可以作为患者生存结局的独立预测因子,从而证实了其独立预测 GC 预后的稳健性。

5

基于多变量 Cox 分析,生成了一个整合了 GPSGC 和其他临床变量的列线图,以预测 TCGA-STAD 和 ACRG 训练队列的 GC 患者 3 年和 5 年总生存率的概率。

6


02. 免疫微环境与 GPSGC 风险评分及预后的关系

7

肿瘤微环境(TME)由细胞外基质(ECM)、间质细胞、免疫 / 炎症细胞和分泌因子组成,与肿瘤的进展和治疗反应密切相关。上述 GPSGC 风险模型中,VCAN、CLIP4 和 MATN3 蛋白的组织分布和细胞定位表明它们与肿瘤微环境(TME)有关。

(1)TME subcomponent analysis

为了进一步探讨 GPSGC 背后的潜在机制,首先基于 ESTIMATE 算法将 TME 分为基质和免疫亚组分,并通过 ssGSEA 确定基质和免疫评分。Pearson 相关分析显示,基质评分与 GPSGC 风险评分呈显著正相关(r=0.645;P<1.0×10-6;)。此外,而基质评分高的 GC 患者总体生存率比基质评分低的患者差(HR=1.351;95%CI:1.107-1.647;P=0.0031)。

8

(2)TME cell type analysis

对于 TME 细胞类型分析,基于 xCell 算法预测 64 种 TME 细胞类型的比例,并通过 ssGSEA 确定每种细胞类型的富集分数。在 64 种 TME 细胞类型中,与 OS(log-rank test, P <0.05)和 GPSGC 风险评分(Pearson’s correlation test, |r| ≥ 0.40, P < 0.05)显著相关的细胞共有 9 种类型。值得注意的是,占比大的五种间质细胞均与预后和 GPSGC 风险评分呈正相关。

9

(3)Panimmune gene set analysis

在泛免疫基因集分析中,利用 GSVA 对 110 条免疫调节相关通路的富集分数进行了估计,筛选与 OS(log-rank test, P <0.05)和 GPSGC 风险评分(Pearson’s correlation test, |r| ≥ 0.40, P < 0.05)显著相关的基因集,得到 10 个泛免疫基因集,其中 8 个与不良结局和 GPSGC 风险评分呈正相关。

10

(4)immunomodulatory gene analysis

为了确定 GPSGC 相关的特异性分子靶点,在整个队列中分析了 60 个免疫调节基因与 GPSGC 风险评分的相关性(Pearson’s correlation test, |r| ≥ 0.40, P <0.05);。OS 分析进一步表明,只有三个免疫调节基因 VEGFB、TGFβ1 和 ENTPD1 显著与不良结果相关。

11


03.GPSGC 和治疗靶点的实验验证

12

由于所有与 GPSGC 和治疗靶点相关的蛋白质都具有重要的生物学功能,进一步使用组织微阵列和多重荧光免疫组织化学(mfIHC)在蛋白质水平上进行实验验证。在 186 例 GC 患者的组织微阵列中,GPSGC 有效地将 59 名患者(31.7%)分为高危组,127 名患者(68.3%)分为低风险组。OS 分析还证明治疗靶点 TGFβ1 和 VEGFB 的蛋白表达与不良预后显著相关。VCAN、CLIP4 和 MATN3 的表达水平和与治疗靶点 TGFβ1 和 VEGFB 的表达显著相关。Pearson 相关分析显示,GPSGC 风险评分与 TGFβ1 蛋白表达和 VEGFB 蛋白表达呈强正相关。

13


文章亮点总结:

1、数据库挖掘结合实验验证;

2、机器学习算法的运用;

3、多层面免疫浸润分析;

4、预后模型与免疫微环境的关联分析。


更多伯豪生物人工服务:

 伯豪学院单细胞测序服务人工客服