上海伯豪生物技术有限公司

发布时间：2021-04-07 浏览次数：11962

服务科技创新，护航人类健康！

数据处理是单细胞测序重要的环节之一 ， 其中细胞类型注释关乎后续研究的准确性 。细胞类型注释是将未知的细胞聚类结果与已知的细胞类型进行相似程度的比对分析。伯豪生物根据多年的项目经验发现，细胞类型注释的准确性，取决于已知数据库的准确性以及注释前聚类分析的算法阈值。本文将针对单细胞测序数据分析环节中细胞注释部分，分享伯豪生物的一点心得。

细胞注释常用方法

方法一：使用 Single R 进行细胞类型注释

操作教程：https://www.bioconductor.org/packages/release/bioc/vignettes/SingleR/inst/doc/SingleR.html

1、计算测试集（没有注释的转录组数据）与参考集（已注释的转录组数据）的相似度（spearman correlation）；

2、以参考集细胞类型为单位，计算 per-label score；

3、对所有的 label 重复这个过程，选取先进的分数的细胞类型标签作为测试集中某类细胞的身份。

方法二： 其它类型 R 语言脚本程序：Garnett

操作教程：https://cloud.tencent.com/developer/article/1606016

方法三：根据经典 marker 基因进行细胞类型注释

如何提高细胞注释的准确性？

一、合适的数据库可以提高细胞注释的准确性。

随着单细胞测序技术的发展，科学家们公开分享的数据库呈递增趋势，如何选择合适的数据库作为参考，关乎着后续研究的的准确性。伯豪生物收录统计了两大类单细胞数据库（按照物种区分：人，小鼠）可用作单细胞测序注释的参考集，其中人相关的单细胞测序数据库包含约 48 种组织，100 种细胞的数据信息；小鼠相关的单细胞测序数据库包含约 43 种组织，90 种细胞的数据信息。针对种类繁多的数据库类型，伯豪生物给出的建议：首先，根据样本的组织部位来源选择相同组织的单细胞测序数据库，或相近部位样本的单细胞测序数据库作为参考数据库；若没有小范围合适的参考数据库，可以按照物种进行划分（值得注意的是随着数据库的逐渐丰富，样本的地域性因素也将逐渐纳入参考数据库的选择指标）。

表 1. 伯豪生物已收录整理的数据库（部分）

二、借鉴经典 marker 基因可提高数据库的注释精度

尽管已有 R 包针对大部分数据可以进行兼容性注释分析，然而在一些研究中，由于聚类阈值的设置导致细胞聚类准确性出现偏差，或者根据现有算法无法与高分研究的细胞分型匹配，此时为保证研究的延续性及可溯源性，需要手动对无法精准注释的细胞类型进行调整。在这一过程中，伯豪收集整理大量的经典细的 marker 信息（来源于历史项目经验及高分文章发表数据），表 2 列出了，伯豪生物收集的部分数据供大家参考。

表 2. 通用经典的 marker 基因（部分展示）

更多伯豪生物人工服务：

伯豪学院

助力科研探索，解读基因奥秘！

网站：	www.shbio.com ︱数据来源：公司统计及服务产品内容
地址：	上海市浦东新区蔡伦路999号
电话：	400-820-3699 & 021-58760087
邮箱：	market@shbio.com