伯豪生物
Nat. Genet. | 基于 ATAC-Seq、HiCHIP 数据构建人类大脑表观遗传图谱,揭示 AD/PD 遗传风险位点
发布时间:2020-11-05 浏览次数:213
阿尔兹海默症(AD)和帕金森氏症(PD)是世界范围内的常见神经退行性疾病。通过全基因组关联研究(GWAS),科学家们已经鉴定出了数千个与这两类疾病相关的单核苷酸多态性(SNP),但这些SNP大多处于基因组的非编码区域,因此难以确定其功能。

111

阿尔兹海默症(AD)和帕金森氏症(PD)是世界范围内的常见神经退行性疾病。通过全基因组关联研究(GWAS),科学家们已经鉴定出了数千个与这两类疾病相关的单核苷酸多态性(SNP),但这些 SNP 大多处于基因组的非编码区域,因此难以确定其功能。

近日,来自斯坦福大学的 Howard Chang 和 Tomas Montine 团队,利用单细胞 / 多细胞 ATAC-Seq 和 HiChIP 数据,分析了认知健康人群大脑不同区域的染色质可及性和三维基因组构象,绘制了成年人类大脑的多组学表观遗传图谱。此外,研究团队还开发了相应的机器学习框架整合这些多组学数据,用于预测 AD 和 PD 相关的非编码区 SNP 功能。该研究结果发表在 Nature Genetics 上,文章题为“Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases”。

2

图 1.  文章发表在 Nature Genetics

利用传统的多细胞 ATAC-Seq,研究团队首先描绘了来自 39 个神经系统健康个体的 7 个大脑区域的染色质可及性图谱(图 2)。随后又选取其中 10 个样本进行单细胞 ATAC-Seq 分析,一共获得了 70,631 个细胞中的染色质可及性数据。去除批次效应后进行聚类分析,研究人员发现这些细胞可聚成 24 个类别,分属于 8 种不同的细胞类型(图 3),其中包括六种主要的大脑细胞类型:兴奋性神经元(excitatory neurons),抑制性神经元(inhibitory neurons),小胶质细胞(microglia),寡突胶质细胞(oligodendrocytes),星状胶质细胞(astrocytes)和寡突胶质细胞祖细胞(oligodendrocyte progenitor cells)。

3

图 2.  研究中取样的 7 个大脑区域,图片来源:Nature Genetics

4

图 3. 70,631 个单细胞 ATAC-Seq 数据利用 UMAP 聚类的结果,图片来源:Nature Genetics

模体(Motif)分析的结果显示,不同细胞类型的染色质可及性区域都结合有特异性的驱动转录因子,例如小胶质细胞中的 SPI1 和神经元中的 JUN/FOS。同时,研究人员对研究中的神经元细胞进行了聚类分析,鉴定出了 30 种不同的细胞亚类(图 4)。

5

图 4. UMAP 分析鉴定出的 30 种神经元细胞亚类,图片来源:Nature Genetics

为了找出非编码区域 SNP 的靶标基因,研究人员从最初取样的 7 个大脑区域中选择了其中的 6 个,制备 H3k27ac 介导的 HiChIP 文库并进行测序,共鉴定出了 833,975 对染色质交互作用。同时,研究团队利用单细胞之间可及性强度大小的协同变化情况(co-accessibility),预测出了 2,822,924 个交互作用。通过这两种分析方式获得的交互作用只有 20% 的重合,表明 HiChIP 只能鉴定出同一类细胞共有的交互作用,无法捕获细胞间特异性的交互作用。

此外,研究团队将 ATAC-Seq 和 HiChIP 数据结合预测了非编码区域 SNP 的功能,并将 SNP 的功能按照重要程度分成几个层级(图 5):

1. SNP 位于多细胞或单细胞 ATAC-Seq 的可及性区域中(第三层次)。

2.  符合条件 1 的 SNP,同时参与 H3K27ac 介导的交互作用(次重要)。

3.  符合条件 1 和 2 的 SNP,同时处于转录因子结合位点中(最重要)。

对于属于最重要类别的 SNP,研究人员开发了一种多组学机器学习框架(gapped k-mer supprot vector machine / gkm-svm)来预测单个 SNP 在等位基因不同位点的结合情况。

6

图 5.  非编码区域 SNP 功能预测流程图,图片来源:Nature Genetics

研究人员认为,新开发的多组学结合的机器学习预测方法,主要解决了以下两类问题:

1.  已知一些基因与疾病相关,找出远程调控这些基因的 SNP。

例如,PICALM 是一个与 AD 相关的基因,作者发现 rs1237999 位于 PICALM 上的远程调控元件中,并处于转录因子 FOS/AP1 结合 motif 上。同时 rs1237999 特异性的结合在等位基因的其中一个位点上。

2.  已知一些 SNP 与疾病相关,找出这些 SNP 调控的基因。

位于 ITIH1 的 Lead SNP 处于 600Kb 长的 LD block 中,一共包含 317 个 SNP。研究发现,其中一个 SNP rs181391313 位于微胶细胞特异性的调控元件中,而这个调控元件处于 STAB1 基因的内含子内部。STAB1 基因编码一种大的跨膜受体蛋白,其功能与淋巴细胞归巢(lymphocyte homing),低密度脂蛋白内吞作用(endocytosis of ligands)相关,这两种功能都与微胶细胞参与 PD 吻合。同时,该 SNP 破坏了转录因子 KLF4 的结合位点,而 KLF4 在小胶质细胞相关基因的活化中也发挥功能。

MAPT 基因编码 tau 蛋白,这种蛋白的过度磷酸化在胞内形成神经元纤维缠结,在 AD 中起着关键作用,但是目前还不清楚 MAPT 具体如何影响 PD。研究人员在 MAPT 基因区域创建了 haplotype 特异性的三维基因组图谱,并鉴定出 28 个可及性发生变化的区域,其中就包括在 MAPT 启动子上游 68Kb 处 H1 单倍型特异性的远程调控元件,和下游 330Kb 处位于 KANSL1 启动子处的调控元件,这两个调控元件只在 H1 单倍型中才与 MAPT 启动子发生特异性的交互作用。而在 H2 单倍型中,染色体倒位区域的两个边界区域发生特异性的交互。

7

图 6. MAPT 基因启动子与远程调控元件的 H1 单倍型特异性的远程交互作用,图片来源:Nature Genetics

综上所述,该研究通过结合 ATAC-Seq 和 HiChIP 数据,发现了更多与 AD 和 PD 相关的   基因,并通过整合多组学数据开发机器学习分类预测非编码区域 SNP 的功能,有助于理解非编码区域的改变对 AD 和 PD 的影响。从更广泛的意义上来讲,该工作提出了一种了解疾病遗传变异的系统方法,同时,由于基因组上非编码区域的调控机制十分复杂,因此这项工作也为筛选新的治疗靶标提供了途径。

本文:来源测序中国(侵删)

参考资料:

1. Corces, M.R., Shcherbina, A., Kundu, S. et al. Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases. Nat Genet 52, 1158–1168 (2020). https://doi.org/10.1038/s41588-020-00721-x


更多伯豪生物人工服务:

伯豪学院单细胞测序服务人工客服