技术服务热线:800-820-5086 | 400-880-5086 登录 | 注册 ENGLISH

疾病研究服务

2019-06-04点击342次
分享:
 

疾病研究的科学思维

表型是一类能够被人们观察鉴定的生命体形态。从形态学层面到细胞学层面甚至分子生物学层面,此类形态伴随着生命体的生老病死。可以说对表型的观察是生命科学研究的根本。无论是遗传学之父孟德尔还是进化论之父达尔文,无不通过对表型的观察提出了杰出的理论。如果说临床医学主要聚焦于疾病表型的诊断,那么医学生物学则在表型的基础上着重于对内在本质的研究。使用合适的研究策略,透过现象看本质,是医学生物学研究的重点所在。

正向遗传学:从表型到基因型

正向遗传学是在获得疾病组织与正常组织的表型差异前提下,从表型入手,寻找产生表型的突变基因并且研究其具体分子机制。一个完整的正向遗传学研究包括以下几个主要步骤:疾病选择,样本收集,突变基因筛查以及分子机制研究。该方法的一大优势在于临床样本有显著的疾病表型,对后续的突变基因筛查和分子机制研究有着良好的生物学意义上的支持。然而,相比较其优势,正向遗传学的劣势也是显而易见的。正向遗传学研究需要大量的符合用于科学研究的临床样本,这针对那些罕见疾病的研究,却反而成为限制正向遗传学应用的瓶颈。

反向遗传学:从基因型到表型

由于正向遗传学在科学研究中对样本需求的局限性,人们同时也提出了反向遗传学的研究思路。一个完整的反向遗传学研究包括以下几个主要步骤:基因筛选,表型观察,分子机制研究。该方法相比于正向遗传学,其优势在于前期的基因筛选无需大量临床样本作为表型支撑。具有快速简单的特征。然而,反向遗传学的难点也恰恰在于此。对于一个完整的生命科学工作,没有表型数据的支撑充其量只是一个有趣的化学实验。因此,为了使整个工作提升生物学价值并且降低整个项目进展的风险性,在确定待研究的基因后,首先需要对该基因进行细胞系的过表达或者敲降实验,配合临床样本的表型分析,在确认表型之后,再进行大规模功能研究。

 

生命科学的发展促进了现代医学的进步

自20世纪70年代以来,现代生物学技术迅猛发展,从而极大地推动了现代医学的发展,特别是以分子生物学为代表的现代生命科学理论和实验技术,是的我们对疾病的认识深入到分子水平。20世纪80年代研发并逐渐应用的重组DNA技术和PCR技术,应用异常基因作为对象,借PCR技术可将基因拷贝数扩增至天文数字;用实时定量PCR(qPCR)检测基因的转录产物,灵敏度达10-11g(0.01ng)。开始于1990年由美、英、法、德、日合作进行的人类基因组计划,要将人体细胞的23对染色体中的30亿个碱基对进行识别和测序。此项工作原预期在2003年全部完成,但在2000年6月26日已提前公布了人类基因组图谱及初步分析结果,2003年4月30日宣布人类基因组的精细测序工作全部完成。这将阐明基因如何在决定人类生长、发育、衰老和患病中起作用提供结构基础,也为深入到基因和分子水平来认识遗传性疾病和遗传有关的疾病提供条件。进入21世纪后,随着人类基因组测序的完成,医学研究已从基因组学(genomics medicine)进入到后基因组时代(post genome era)。基因芯片和蛋白芯片等高通量技术的日臻成熟和应用,将为疾病的研究提供动态深入的综合信息,开展功能基因的研究,有助于发现疾病基因和抗病基因。生物信息学技术、生物芯片技术、转基因和基因敲除技术、酵母双杂交技术、基因表达谱分析、蛋白组学、结构基因组学和高通量细胞筛选技术等的应用为现代医学对疾病的认识提高到一个新水平。

 

高通量组学技术助力精准医疗

随着人类基因组计划(Human Genome Project)的完成,基因组测序技术取得了长足的进步,这直接导致了每兆基因组成本的大幅下降以及检测的基因组数量越来越多。人们对基因组的复杂性深感震惊,这也引导着测序技术的进一步发展。近期的一些突破性技术使得测序技术在更短的时间内可以获得更多的数据量。与之对应的是,还有一些技术的进步使得单条序列的测序读长变得更长——这对解析结构性的复合区段是非常必要的。这些进展给科研人员以及医疗诊断人员提供了一个技术平台使得人们对基因组变异导致的表型变化以及疾病发生有了进一步的了解。

自从DNA的双螺旋结构被人们解析开始,人们在探究健康与疾病的基因组的复杂性与差异性上做出了巨大的努力。为了支持人类基因组计划的顺利进行,人们在仪器和试剂上做出了巨大的改进。该计划的完成使得人们强烈的意识到人们需要更多更好的技术与数据分析能力来回答随之而来的一系列生物学问题。然而,通量的限制以及高昂的测序成本成为了人们进一步了解基因组的一道坎。2000年之后推出的高通量测序平台很好地解决了这个问题,人类基因组测序的成本直接因此下降50000倍,并且由此产生了一个新的名词:下一代测序(next-generation sequencing,NGS)。在过去的十年中,NGS技术不停的在进步,根据National Human Genome Research Institute的数据,人类基因组测序的成本也已经下降到1000美元/人。随着Illumina在2017年推出新一代的测序仪NovaSeq,人类基因组测序的成本甚至有望降到100美元。

 

基因组学研究

全基因组测序(Whole genomics sequencing)正在成为NGS在医学研究中最广泛的应用之一。通过该技术并且结合生物学应用,研究人员可以获得基因组信息中值得注意的信息。举例来说,2012年,Ellis等报道了基因与乳腺癌患者芳香酶抑制剂(aromatase inhibitor)治疗法之间的关联。他们指出突变,后果与诊断之间的关联,同样还有癌症相关基因的突变的富集。这提供了一个可能性,即:乳腺癌有不同的突变造成不同的表型,具有复杂的病理学。近期的NGS平台的改进使得研究人员发现了一些几年前难以想象的新观点与机会。在2010年,1000例基因组计划(1000 genomes project)开放了其从179个个体中获得的WGS原始数据以及697个个体的测序数据。到2015年,研究人员已经构建了26个不同人群的2504个人的基因组群体。给人们从种群的角度来观察人类的变异。但这还不是该项目的终点,越来越多的人的基因组正在被得以测序。种群水平的测序已经成为人们更好的理解人类疾病的一个重要的工具,同样也得到了意想不到的结果。一个例子是,Sidore等对2120个撒丁岛人(Sardinians)的WGS研究发现了一些新的和脂肪相关的基因以及炎症的标志物,给人们对血液胆固醇的分子机制的研究提供了新思路。

全外显子组测序(Whole-exome and targeted sequencing)同样也广泛应用于测序的研究中。受制于基因组材料大小的局限,更多的个人样本可以在一个测序中实现,增加了基因组研究的宽度以及深度。使用外显子测序,Iossifov等对超过2500个单一的家庭进行测序,每个家庭都有一个小孩患有自闭症(autism spectrum disorder, ASD)。研究人员在30%的样本中发现了错意突变(missense mutations),基因干扰的突变(gene-disrupting mutations)以及拷贝数的变异。该工作与其他的工作一道鉴定到了ASD相关的基因突变。其他证据表明,高覆盖度的WGS也可以解决复杂的变异以及临床样本的分析。2015年,Griffith等认为可以使用一个跨平台的方法(包含靶向测序)来鉴定肿瘤中高可信度的SNPs。该方法中,作者认为10000×的覆盖度可以鉴定到稀有突变。由于10000×的覆盖度对于WGS而言实在过高,靶向测序便在临床中得到了广泛的应用。

测序的方法除了能够应用于SNPs的高通量检测,目前也同时用于拷贝数变异(Copy Number Variation,CNV)和其它结构变异的研究。CNV作为一种介于染色体变异和DNA序列变异中间尺度的变异类型,已被证明与多种遗传性疾病和肿瘤密切相关。目前,在产前遗传病筛查和新生儿疾病诊断领域中,CNV变异已成为必不可少的检测项目;在癌症研究领域,CNV也已被多项研究证明参与了癌症的发生和发展,其数量和复杂程度更是许多癌症的预后指标。目前,相对于测序,基因芯片是检测CNV变异最为常用的方法之一,有着可靠、重复性好、分辨率高的特点。

 

转录组学研究

在对转录水平上的研究也因为组学技术受益匪浅。转录组是指特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合。近10年来,高通量测序技术得到了突飞猛进的发展,在此基础上,出现了高通量RNA 测序。与基因芯片技术相比,RNA-seq 无需设计探针,能在全基因组范围内以单碱基分辨率检测和量化转录本,并且具有更高的检测灵敏度和动态范围。在快速获得mRNA表达谱的同时,根据测定的序列同时可以对cSNP、可变剪接等转录本的序列及结构信息进行精确地分析;另外对于检测低丰度转录本和发现新转录本具有其独特优势。随着测序成本的不断下降,RNA-seq成为了越来越受欢迎的转录组分析方法。

人类基因组只有不到2%的序列编码蛋白质,十多年前普遍认为基因组中那些剩余的序列大多都是进化过程中产生的“垃圾”和“噪音”。然而ENCODE计划证明人类基因组剩余的“垃圾”序列至少80%都是有功能的,这些序列的转录产物就包括大量的非编码RNA。ncRNA中除了众所周知的tRNA、rRNA等,多种具有调控功能的ncRNA越来越被大家所关注,例如研究非常成熟的miRNA。紧接着,lncRNA,circRNA等非编码RNA也开始进入大家的视野,并且迅速成为研究的新热点。这些ncRNA往往具有组织和细胞特异性,在表观遗传调控、转录及转录后调控等水平参与蛋白编码基因的调控。

今天,研究人员甚至能够使用深度测序对单个细胞进行研究。2014年,Treutlein等使用了组织发育过程中不同细胞类群的单细胞RNA测序发现了用于鉴定细胞亚群的标志物。此外,尽管长读长测序相对而言在对转录本的定量上不占优势,但是,长读长可以在研究转录组的结构上有所帮助。举例来说,近期的人类长读长转录组测序研究表明 >10%的reads是新的可变剪切体。

 

表观组学研究

组学技术同样在表观遗传修饰研究中有广泛的应用。表观基因组学(Epigenomics)主要研究基因组水平上的表观遗传学改变,即研究非DNA序列改变的化学修饰所导致的基因表达水平的变化。在基因组学中,表观遗传修饰主要包括DNA甲基化、组蛋白修饰、染色体重塑等。

DNA甲基化在人类表观遗传、胚胎发育、基因组印记及肿瘤发生中的重要作用。近些年,随着DNA甲基化研究的深入,DNA甲基化分析方法层出不穷,按其原理的不同,主要可分为依赖于甲基化敏感的限制性内切酶技术、依赖于DNA序列分析的检测技术和依赖于甲基化芯片、质谱的检测技术等。2010年,Flusberg等发表了一个概念性的研究方法,即:使用PacBio来区分甲基化与非甲基化的碱基。由于聚合酶即便是甲基化的碱基也能够延伸,但在甲基化位点上会停留更多的时间,因此这里改变的信号可以认为含有甲基化修饰。

RNA的修饰和DNA修饰相比,其组成更加复杂,有研究报道,包括m6A甲基化修饰在内的修饰种类就已经达到了上百种之多。如何能够最大程度的鉴定这些修饰位点是RNA的表观转录组学研究的关键所在。除此之外,针对RNA上百种的修饰,其生物学意义也是值得我们去广泛研究的。针对此,我们可以使用针对RNA的高通量测序技术结合正向遗传学与反向遗传学研究思路,对RNA的修饰进行大规模的鉴定与生物学研究。

 

宏基因组学研究

在人体内“定居”的微生物对人类健康的影响深远。人体内微生物的数量是人类细胞的10 倍之多,这些微生物的编码基因总量是人类基因数目的 50-100倍,被统称为宏基因组(metagenome)。基于NGS技术,宏基因组测序避开了微生物分离培养的过程,为微生物的研究提供了高效的研究工具。随着测序通量和数据分析能力的不断提高,宏基因组测序液从16S rRNA测序发展到全基因组鸟枪测序,从而能够在基因水平上研究微生物之间以及微生物与宿主之间的相互作用,更好的诠释人体微生物与人类健康的关系,同时也有助于疾病的预防和治疗。

 

多组学整合研究

生命现象的发生和调控过程是非常复杂的,在肿瘤、自身免疫疾病、代谢疾病等复杂疾病的发生发展过程中,在干细胞分化、胚胎发育与物种进化等生命现象中,会涉及到基因组、转录组、蛋白质组及表观遗传等多层面的变化及调控。在大数据时代,将多个组学数据结合起来的整合研究——多组学(Multi-omics)研究,是一大趋势。对于一个复杂的疾病或生命现象的研究,要综合考虑其表型以及生理生化指标以及基因组、转录组、蛋白质组、表观遗传及代谢组等多层面的变化。将上述多组学的数据整合分析,以掌握其全局的变化过程,为研究其调控机制和精准医疗提供综合解决方案。

多组学的数据分析中涉及到甲基化对mRNA与lncRNA乃至miRNA的转录前调控作用;lncRNA对mRNA的转录前及转录后调控作用;miRNA对mRNA的转录后降解和抑制的调控作用;内源竞争性RNA(ceRNA)通过对miRNA的结合而对mRNA的调控作用;CNV对基因表达的剂量效应;SNV对基因功能的影响以及对信号通路基因的激活和抑制作用,等等。




 

一、Biomarker研究介绍

1998年,美国NIH将生物标志物(Biomarker)定义为:一种可客观检测和评价的特性,可作为正常生物学过程、病理过程或治疗干预药理学反应的指示因子。生物标志物作为最直接快速有效的诊断手段之一,其筛选与获得可在疾病预防、早期诊断、分子分型、个体化治疗、疗效监测、预后评估等多个方面发挥重要的作用,同时也是药物开发的重要靶标。寻找和发现有价值的生物标志物是科研与临床运用结合的重要途径之一,已经成为精准医疗中非常重要的一部分。

高通量的芯片和测序技术为在全基因组水平上绘制高分辨率的基因组变异、RNA转录、转录因子结合、DNA甲基化、组蛋白修饰等研究提供了前所未有的机遇。这些技术产生了海量的多平组学数据,为生物标志物的开发提供了大量的“素材”,然而,如何有效地进行数据挖掘(Data Mining)仍然是一个巨大的挑战。如果仅仅使用传统的统计方法对这样庞大的数据量进行处理分析,并要揭示分析结果呈现出来的规律和趋势,以便对应到实际应用中,这显然是非常困难的。数据挖掘主要是应用相关技术,从大量不完整的、无序的、冗余的数据中,挖掘其中可能隐含的、还没有被人们发现但是对研究结果和深层次研究有重要意义的信息。与生物信息学类似,数据挖掘也是一门交叉学科,综合了人工智能、数据库、可视化、并行计算等方向。

机器学习(Machine Learning)是一种实现人工智能的方法。目前对于机器学习的定义并不统一,比较具有权威性的是 H.Simon 的观点:学习是指通过不断改进,使得系统在再次遇到同样或类似的工作时可以更好的完成的过程。不同层面的组学数据为发现疾病进程中不同的分子标志物和调控机制提供了基础,结合高通量组学测序技术和机器学习算法各自的优势, 可绘制出一幅全面的生物标志物图谱,为疾病预防、早期诊断、分子分型、个体化治疗、疗效监测、预后评估等多个方面提供帮助。

 

二、研究思路

生物标志物研究的思路

 

三、研究内容

1、发现阶段——应用组学技术,高通量筛选差异基因

(1)差异基因初步筛选

根据技术手段的不同,按照实验分组,初步筛选在统计学上显著差异的基因或位点,包括差异mRNA、miRNA、lncRNA、circRNA,差异CNV,或者差异CpG位点,也包括差异的微生物种类等。对于不同层面的组学数据,以及不同平台产生的数据,应选择合适的数据分析方法,对原始数据进行过滤、归一化,然后根据实验目的和样本分组,应用正确的统计学算法找出差异显著的基因。

 (2)特征选择——利用机器学习的方法进行特征识别,对以上差异基因或位点进行排序

特征选择(Feature Selection)是数据挖掘领域的一个热门研究课题。在机器学习应用过程中,特征数量庞大、特征之间的关联关系相对复杂、关联关系间依赖性影响等问题,使得学习产生了诸多问题,比如:分析数据、训练模型时间长,数据量大导致“维度灾难”,模型过于复杂等等。通过特征选择可以在保证数据原有属性的同时,挑选出合适的属性子集,去掉数据集中不相关和多余的属性,减少特征数量,降低特征空间维数,从而提高数据质量,提高结果精度,使挖掘得到的属性更易理解,并且加快挖掘的速度,缩短训练时间。并且通过特征选择可以分析出具有相关联系的特征,方便研究人员理解整个数据的产生过程。对于生物标志物研究来说,由于高通量组学数据具有高维度的提点,我们必须从大量基因中选取一些特定的特征基因用于分类,才能取得较好的识别和分类效果。因此,特征选择是整个生物标志物开发过程中关键的步骤之一。

特征选择的常用算法有Lasso(Least Absolute Shrinkage and Selection Operator),递归特征消除 (Recursive Feature Elimination,RFE)等。

 

2、训练阶段——应用分类器算法建立分类模型,用于新样本的分类预测

(1)平台间验证

从检测成本和准确性上考虑,通常在临床应用阶段的Biomarker数目都不会太多,所以检测平台一般都会选择中低通量的技术,比如qRT-PCR,焦磷酸测序等。而不同平台之间存在系统误差,因此就需要在建立模型之前先对特征选择后的基因进行平台间的验证。在此阶段,样本上也应该使用区别于发现阶段的一组新的样本作为训练集,从而扩大样本以提高建模的准确性。在平台间验证的过程中,候选基因的范围也会进一步缩小。

(2)建立分类模型

Biomarker从本质上来说是一种分类的工具,包括二分类和多分类。二分类的Biomarker主要用于早期诊断(疾病与否)、预后评估(转移与否、复发与否)、疗效监控(耐药与否)等;多分类的比如早期诊断(不同肿瘤的诊断)、个体化用药(肿瘤的分子分型)等。而机器学习这时候的主要功能就是分类器(Classifier),即在已有数据的基础上构造出一个分类模型,并应用于新数据的分类预测。

建立分类模型的主要步骤包括:①将所有样本分成训练样本(Training Set)和测试(Testing Set)样本两部分。②在训练样本上执行分类器算法,生成分类模型。③在测试样本上执行分类模型,生成预测结果。④根据预测结果,计算必要的评估指标,评估分类模型的性能。以上过程叫做交叉验证(Cross Validation)。

在整个过程中的核心是分类器算法,目前主要可以分为单模型算法和集成算法(Ensemble Algorithms)。前者主要有逻辑回归(Logistic Regression),朴素贝叶斯(Naive Bayes),支持向量机(Support  Vector  Machine,SVM)等。

(3)模型评估

对于二分类问题,经常会用到ROC曲线来衡量模型分类的效果。ROC曲线指受试者工作特征曲线(Receiver Operating Characteristic Curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

 

3、验证阶段——通过扩大样本的验证评估分类模型的性能

在验证阶段,通常需要扩大样本量,用另一组独立样本对模型进行进一步的验证。对于候选的biomarker,同样采用qRT-PCR等中低通量的方法进行定量,并放入模型中进行验证。对于分类问题,一般也是通过ROC曲线来评估模型的分类效果。

另外,生存曲线可以作为肿瘤或其他疾病客观可评价的终点指标来进行疗效或者预后评价的指标。在肿瘤疗效或者预后研究中我们可以用生存曲线进一步证明所筛选验证的biomarker其临床意义。

 

四、应用案例

1、局部晚期鼻咽癌转移mRNA标志物

  • 客户单位:中山大学肿瘤防治马骏教授团队
  • 期刊: Lancet Oncology
  • 影响因子:33.9
  • 发表时间:2018
  • 伯豪提供服务:表达谱芯片,数据分析

研究背景

鼻咽癌是我国常见的头颈肿瘤,其中以华南为高发地区。约70%的鼻咽癌患者在就诊时已经处于局部区域晚期(无远处转移),严重威胁着我国人民的生命健康。目前局部区域晚期鼻咽癌患者仍有20-30%的在治疗后会出现远处转移,成为治疗失败的主要原因。采取传统的肿瘤临床N分期方法,预测远处转移的准确性仅为57%左右;并且,相同分期的患者接受同样的治疗后常常出现不同的生存结局,临床上缺乏有效的标志物指导鼻咽癌患者的治疗方案选择。

研究思路

研究结果

针对上述情况,马骏教授团队开展了大规模的鼻咽癌分子标志物研究,团队通过表达谱芯片对接受治疗后有无出现远处转移的鼻咽癌组织全基因组表达水平进行对比分析,从数万个基因中初步锁定137个差异表达基因,再用Lasso回归算法从410例患者中筛选13个远处转移相关的基因构建分子标签,用Cox回归构建风险模型,将病人分为高风险组和低风险组。结果显示,高风险组患者5年远处转移率高达37%,低风险组则仅为9%。

原文出处:Tang XR, Li YQ, Liang SB, et al. Development and validation of a gene expression-based signature to predict distant metastasis in locoregionally advanced nasopharyngeal carcinoma: a retrospective, multicentre, cohort study. Lancet Oncology 2018, 19(3):382-393.

 

2、DNA甲基化预测早期肝癌术后复发

  • 客户单位:中山大学肿瘤防治中心元云飞和李斌奎教授团队
  • 期刊: Journal of clinical oncology
  • 影响因子:20.982
  • 发表时间:2017
  • 伯豪提供服务:450k甲基化芯片,数据分析

研究思路

 

研究结果

研究者首先对66例病人的样本采用450K甲基化芯片检测,过滤得到2550个差异CpG位点。为区分高风险和低风险的病人,采用LASSO和SVM-RFE算法分别得到了30个显著差异的CpG位点。通过将这两种算法得到的CpG位点进行联合,共筛选出46个不同的CpG位点。

研究者随后采用Cox回归模型在训练组中进一步缩小了病人的甲基化检测位点,发现三个甲基化位点(cg20657849(SCAND3), cg19406367(SGIP1)和cg19931348(PI3))与病人复发高度相关。

 

随后研究者采用焦磷酸测序技术,分别在训练组和鉴定组中量化这一发现。另外一组内部样本和两组外部样本对这一模型进行验证。ROC分析发现,预测模型预测早期肝癌病人复发比三个CpG位点单独检测更有效。为了建立临床上适用的用来预测个体复发的模型,综合考虑了协变量后,研究者用诺模图建立了可以用来预测的模型。研究者生成了一个诺模图预测患者的5年生存率,通过三个校正点的检测均得到理想结果。

原文出处:Qiu J, Peng B, Tang Y, et al. CpG Methylation Signature Predicts Recurrence in Early-Stage Hepatocellular Carcinoma: Results From a Multicenter Study. J Clin Oncol 2017, 35(7):734-742.

 

3、肝癌早期诊断miRNA

  • 客户单位:中山医院樊嘉院士团队
  • 期刊:Journal of clinical oncology.
  • 影响因子:18.97
  • 发表时间:2011
  • 伯豪提供服务:Agilent miRNA芯片,数据分析

研究背景

目前常用的肝癌诊断方法有影像学和生物标志物法,但灵敏性和准确率都不够,以至于只有约30%的肝癌能被早期诊断出来。复旦大学附属中山医院、复旦大学肝癌研究所樊嘉教授课题组利用microRNA芯片从不同人群血浆中筛选到了由7个microRNA组成的早期肝癌诊断分子标记物,将其整合后建立起诊断模型,可用来成功“区分”健康人、慢性乙肝患者、乙肝肝硬化患者和肝癌患者。

研究思路

研究结果

选取137个血清样本(57个肝癌患者(HCC)、33个健康人、22个慢性乙型肝炎患者(CHB)、25个肝硬化患者),用miRAN芯片(可检测723个miRNAs位点)对其进行检测。发现了15个差异miRNAs用于后续的qRT-PCR验证。

扩大样本在上述15个miRNAs中qRT-PCR验证,7个miRNAs入选预测模型 ,建立回归模型,使用ROC曲线对这个模型预测HCC的准确性进行了评估,AUC =0.864 (95% CI, 0.826 to 0.895;灵敏性68.6%;特异性90.1%)。随后,用309个血清样本进行了模型的验证,ROC曲线分析结果为:AUC =0.888 (95% CI, 0.852至0.917;灵敏性81.8%;特异性83.5%)。

此外,为了观察此模型的预测效果与疾病发展历程的关系,对不同疾病阶段(BCLC阶段分别为0、A、B、C)进行了预测,预测结果准确性分别为0.888、0.888、0.901、0.881,表明此预测模型可用于不同发病阶段HCC的疾病诊断。研究人员利用microRNA芯片筛选、RT-PCR验证等方法寻找到7个microRNA的组合,这一组合能对乙型肝癌(hepatitis B virus related HCC)患者进行早期诊断。

原文出处:Zhou J, Yu L, Gao X, et al. Plasma microRNA panel to diagnose hepatitis B virus-related hepatocellular carcinoma. J Clin Oncol 2011, 29(36):4781-8.

 

4、血小板RNA-seq早期诊断不同癌症

  • 期刊: Cancer Cell
  • 影响因子:23.214
  • 发表时间:2015

研究背景

作为血液中第二丰富的细胞类型,血小板是由骨髓造血组织中的巨核细胞产生。多功能造血干细胞在造血组织中经过定向分化形成原始的巨核细胞,又进一步成为成熟的巨核细胞。成熟的巨核细胞膜表面形成许多凹陷,伸入胞质之中,相邻的凹陷细胞膜在凹陷深部相互融合,使巨核细胞部分胞质与母体分开。这些被细胞膜包围的与巨核细胞胞质分离开的成分脱离巨核细胞,经过骨髓造血组织中的血窦进入血液循环成为血小板。

外界刺激如血小板表面受体的激活和脂多糖介导的血小板激活,甚至在癌细胞和肿瘤微环境的基质细胞和免疫细胞的刺激条件下,血小板的pre-mRNA能被剪接为成熟RNA,然后转化为功能性蛋白应对外部刺激。

研究结果

Myron的研究团队,从283名对象身上抽血,分离血小板并提取RNA,随后进行高通量测序,通过差异基因筛选和SVM建模,基于肿瘤血小板的RNA测序能够区分出228名是肿瘤患者(包括局部和转移肿瘤)和55名是健康个体,其准确率达96%。也可以区分6种不同类型的肿瘤,其准确率达到了71%。结果表明,肿瘤血小板mRNA为泛癌症检测、肿瘤分类和肿瘤突变基因诊断提供了一个有价值的平台,并促进了基于血液的液体活检的发展。

伯豪改进

伯豪生物的生物信息团队首先通过计算机对多种不同的特征选择和分类模型算法进行大规模计算评估,不断优化算法。

根据计算机模拟结果,特征选择模型为SVM,biomarker数量为400,逻辑回归作为分类模型。结果显示,伯豪算法的预测准确性为76%,由于文献中的71%。

原文出处:Best MG, Sol N, Kooi I, et al. RNA-Seq of Tumor-Educated Platelets Enables Blood-Based Pan-Cancer, Multiclass, and Molecular Pathway Cancer Diagnostics. Cancer Cell 2015, 28(5):666-676.