疾病biomarker研究

一、Biomarker研究介绍

1998年,美国NIH将生物标志物(Biomarker)定义为:一种可客观检测和评价的特性,可作为正常生物学过程、病理过程或治疗干预药理学反应的指示因子。生物标志物作为最直接快速有效的诊断手段之一,其筛选与获得可在疾病预防、早期诊断、分子分型、个体化治疗、疗效监测、预后评估等多个方面发挥重要的作用,同时也是药物开发的重要靶标。寻找和发现有价值的生物标志物是科研与临床运用结合的重要途径之一,已经成为精准医疗中非常重要的一部分。

高通量的芯片和测序技术为在全基因组水平上绘制高分辨率的基因组变异、RNA转录、转录因子结合、DNA甲基化、组蛋白修饰等研究提供了前所未有的机遇。这些技术产生了海量的多平组学数据,为生物标志物的开发提供了大量的“素材”,然而,如何有效地进行数据挖掘(Data Mining)仍然是一个巨大的挑战。如果仅仅使用传统的统计方法对这样庞大的数据量进行处理分析,并要揭示分析结果呈现出来的规律和趋势,以便对应到实际应用中,这显然是非常困难的。数据挖掘主要是应用相关技术,从大量不完整的、无序的、冗余的数据中,挖掘其中可能隐含的、还没有被人们发现但是对研究结果和深层次研究有重要意义的信息。与生物信息学类似,数据挖掘也是一门交叉学科,综合了人工智能、数据库、可视化、并行计算等方向。

机器学习(Machine Learning)是一种实现人工智能的方法。目前对于机器学习的定义并不统一,比较具有权威性的是 H.Simon 的观点:学习是指通过不断改进,使得系统在再次遇到同样或类似的工作时可以更好的完成的过程。不同层面的组学数据为发现疾病进程中不同的分子标志物和调控机制提供了基础,结合高通量组学测序技术和机器学习算法各自的优势, 可绘制出一幅全面的生物标志物图谱,为疾病预防、早期诊断、分子分型、个体化治疗、疗效监测、预后评估等多个方面提供帮助。

 

二、研究思路

生物标志物研究的思路

 

三、研究内容

1、发现阶段——应用组学技术,高通量筛选差异基因

(1)差异基因初步筛选

根据技术手段的不同,按照实验分组,初步筛选在统计学上显著差异的基因或位点,包括差异mRNA、miRNA、lncRNA、circRNA,差异CNV,或者差异CpG位点,也包括差异的微生物种类等。对于不同层面的组学数据,以及不同平台产生的数据,应选择合适的数据分析方法,对原始数据进行过滤、归一化,然后根据实验目的和样本分组,应用正确的统计学算法找出差异显著的基因。

 (2)特征选择——利用机器学习的方法进行特征识别,对以上差异基因或位点进行排序

特征选择(Feature Selection)是数据挖掘领域的一个热门研究课题。在机器学习应用过程中,特征数量庞大、特征之间的关联关系相对复杂、关联关系间依赖性影响等问题,使得学习产生了诸多问题,比如:分析数据、训练模型时间长,数据量大导致“维度灾难”,模型过于复杂等等。通过特征选择可以在保证数据原有属性的同时,挑选出合适的属性子集,去掉数据集中不相关和多余的属性,减少特征数量,降低特征空间维数,从而提高数据质量,提高结果精度,使挖掘得到的属性更易理解,并且加快挖掘的速度,缩短训练时间。并且通过特征选择可以分析出具有相关联系的特征,方便研究人员理解整个数据的产生过程。对于生物标志物研究来说,由于高通量组学数据具有高维度的提点,我们必须从大量基因中选取一些特定的特征基因用于分类,才能取得较好的识别和分类效果。因此,特征选择是整个生物标志物开发过程中关键的步骤之一。

特征选择的常用算法有Lasso(Least Absolute Shrinkage and Selection Operator),递归特征消除 (Recursive Feature Elimination,RFE)等。

 

2、训练阶段——应用分类器算法建立分类模型,用于新样本的分类预测

(1)平台间验证

从检测成本和准确性上考虑,通常在临床应用阶段的Biomarker数目都不会太多,所以最终的检测平台一般都会选择中低通量的技术,比如qRT-PCR,焦磷酸测序等。而不同平台之间存在系统误差,因此就需要在建立模型之前先对特征选择后的基因进行平台间的验证。在此阶段,样本上也应该使用区别于发现阶段的一组新的样本作为训练集,从而扩大样本以提高建模的准确性。在平台间验证的过程中,候选基因的范围也会进一步缩小。

(2)建立分类模型

Biomarker从本质上来说是一种分类的工具,包括二分类和多分类。二分类的Biomarker主要用于早期诊断(疾病与否)、预后评估(转移与否、复发与否)、疗效监控(耐药与否)等;多分类的比如早期诊断(不同肿瘤的诊断)、个体化用药(肿瘤的分子分型)等。而机器学习这时候的主要功能就是分类器(Classifier),即在已有数据的基础上构造出一个分类模型,并应用于新数据的分类预测。

建立分类模型的主要步骤包括:①将所有样本分成训练样本(Training Set)和测试(Testing Set)样本两部分。②在训练样本上执行分类器算法,生成分类模型。③在测试样本上执行分类模型,生成预测结果。④根据预测结果,计算必要的评估指标,评估分类模型的性能。以上过程叫做交叉验证(Cross Validation)。

在整个过程中的核心是分类器算法,目前主要可以分为单模型算法和集成算法(Ensemble Algorithms)。前者主要有逻辑回归(Logistic Regression),朴素贝叶斯(Naive Bayes),支持向量机(Support  Vector  Machine,SVM)等。

(3)模型评估

对于二分类问题,经常会用到ROC曲线来衡量模型分类的效果。ROC曲线指受试者工作特征曲线(Receiver Operating Characteristic Curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

 

3、验证阶段——通过扩大样本的验证评估分类模型的性能

在验证阶段,通常需要扩大样本量,用另一组独立样本对模型进行进一步的验证。对于候选的biomarker,同样采用qRT-PCR等中低通量的方法进行定量,并放入模型中进行验证。对于分类问题,一般也是通过ROC曲线来评估模型的分类效果。

另外,生存曲线可以作为肿瘤或其他疾病客观可评价的终点指标来进行疗效或者预后评价的指标。在肿瘤疗效或者预后研究中我们可以用生存曲线进一步证明所筛选验证的biomarker其临床意义。

 

四、应用案例

1、局部晚期鼻咽癌转移mRNA标志物

  • 客户单位:中山大学肿瘤防治马骏教授团队
  • 期刊: Lancet Oncology
  • 影响因子:33.9
  • 发表时间:2018
  • 伯豪提供服务:表达谱芯片,数据分析

研究背景

鼻咽癌是我国常见的头颈肿瘤,其中以华南为高发地区。约70%的鼻咽癌患者在就诊时已经处于局部区域晚期(无远处转移),严重威胁着我国人民的生命健康。目前局部区域晚期鼻咽癌患者仍有20-30%的在治疗后会出现远处转移,成为治疗失败的主要原因。采取传统的肿瘤临床N分期方法,预测远处转移的准确性仅为57%左右;并且,相同分期的患者接受同样的治疗后常常出现不同的生存结局,临床上缺乏有效的标志物指导鼻咽癌患者的治疗方案选择。

研究思路

研究结果

针对上述情况,马骏教授团队开展了现今国际最大规模的鼻咽癌分子标志物研究,团队通过表达谱芯片对接受治疗后有无出现远处转移的鼻咽癌组织全基因组表达水平进行对比分析,从数万个基因中初步锁定137个差异表达基因,再用Lasso回归算法从410例患者中筛选13个远处转移相关的基因构建分子标签,用Cox回归构建风险模型,将病人分为高风险组和低风险组。结果显示,高风险组患者5年远处转移率高达37%,低风险组则仅为9%。

原文出处:Tang XR, Li YQ, Liang SB, et al. Development and validation of a gene expression-based signature to predict distant metastasis in locoregionally advanced nasopharyngeal carcinoma: a retrospective, multicentre, cohort study. Lancet Oncology 2018, 19(3):382-393.

 

2、DNA甲基化预测早期肝癌术后复发

  • 客户单位:中山大学肿瘤防治中心元云飞和李斌奎教授团队
  • 期刊: Journal of clinical oncology
  • 影响因子:20.982
  • 发表时间:2017
  • 伯豪提供服务:450k甲基化芯片,数据分析

研究思路

 

研究结果

研究者首先对66例病人的样本采用450K甲基化芯片检测,过滤得到2550个差异CpG位点。为区分高风险和低风险的病人,采用LASSO和SVM-RFE算法分别得到了30个差异最显著的CpG位点。通过将这两种算法得到的CpG位点进行联合,共筛选出46个不同的CpG位点。

研究者随后采用Cox回归模型在训练组中进一步缩小了病人的甲基化检测位点,发现三个甲基化位点(cg20657849(SCAND3), cg19406367(SGIP1)和cg19931348(PI3))与病人复发高度相关。

 

随后研究者采用焦磷酸测序技术,分别在训练组和鉴定组中量化这一发现。另外一组内部样本和两组外部样本对这一模型进行验证。ROC分析发现,预测模型预测早期肝癌病人复发比三个CpG位点单独检测更有效。为了建立临床上适用的用来预测个体复发的模型,综合考虑了协变量后,研究者用诺模图建立了可以用来预测的模型。研究者生成了一个诺模图预测患者的5年生存率,通过三个校正点的检测均得到理想结果。

原文出处:Qiu J, Peng B, Tang Y, et al. CpG Methylation Signature Predicts Recurrence in Early-Stage Hepatocellular Carcinoma: Results From a Multicenter Study. J Clin Oncol 2017, 35(7):734-742.

 

3、肝癌早期诊断miRNA

  • 客户单位:中山医院樊佳院士团队
  • 期刊:Journal of clinical oncology.
  • 影响因子:18.97
  • 发表时间:2011
  • 伯豪提供服务:Agilent miRNA芯片,数据分析

研究背景

目前常用的肝癌诊断方法有影像学和生物标志物法,但灵敏性和准确率都不够,以至于只有约30%的肝癌能被早期诊断出来。复旦大学附属中山医院、复旦大学肝癌研究所樊嘉教授领衔的课题组利用microRNA芯片从不同人群血浆中筛选到了由7个microRNA组成的早期肝癌诊断分子标记物,将其整合后建立起诊断模型,可用来成功“区分”健康人、慢性乙肝患者、乙肝肝硬化患者和肝癌患者。

研究思路

研究结果

选取137个血清样本(57个肝癌患者(HCC)、33个健康人、22个慢性乙型肝炎患者(CHB)、25个肝硬化患者),用miRAN芯片(可检测723个miRNAs位点)对其进行检测。发现了15个差异miRNAs用于后续的qRT-PCR验证。

扩大样本在上述15个miRNAs中qRT-PCR验证,7个miRNAs入选预测模型 ,建立回归模型,使用ROC曲线对这个模型预测HCC的准确性进行了评估,AUC =0.864 (95% CI, 0.826 to 0.895;灵敏性68.6%;特异性90.1%)。随后,用309个血清样本进行了模型的验证,ROC曲线分析结果为:AUC =0.888 (95% CI, 0.852至0.917;灵敏性81.8%;特异性83.5%)。

此外,为了观察此模型的预测效果与疾病发展历程的关系,对不同疾病阶段(BCLC阶段分别为0、A、B、C)进行了预测,预测结果准确性分别为0.888、0.888、0.901、0.881,表明此预测模型可用于不同发病阶段HCC的疾病诊断。研究人员利用microRNA芯片筛选、RT-PCR验证等方法寻找到7个microRNA的组合,这一组合能对乙型肝癌(hepatitis B virus related HCC)患者进行早期诊断。

原文出处:Zhou J, Yu L, Gao X, et al. Plasma microRNA panel to diagnose hepatitis B virus-related hepatocellular carcinoma. J Clin Oncol 2011, 29(36):4781-8.

 

4、血小板RNA-seq早期诊断不同癌症

  • 期刊: Cancer Cell
  • 影响因子:23.214
  • 发表时间:2015

研究背景

作为血液中第二丰富的细胞类型,血小板是由骨髓造血组织中的巨核细胞产生。多功能造血干细胞在造血组织中经过定向分化形成原始的巨核细胞,又进一步成为成熟的巨核细胞。成熟的巨核细胞膜表面形成许多凹陷,伸入胞质之中,相邻的凹陷细胞膜在凹陷深部相互融合,使巨核细胞部分胞质与母体分开。最后这些被细胞膜包围的与巨核细胞胞质分离开的成分脱离巨核细胞,经过骨髓造血组织中的血窦进入血液循环成为血小板。

外界刺激如血小板表面受体的激活和脂多糖介导的血小板激活,甚至在癌细胞和肿瘤微环境的基质细胞和免疫细胞的刺激条件下,血小板的pre-mRNA能被剪接为成熟RNA,然后转化为功能性蛋白应对外部刺激。

研究结果

Myron的研究团队,从283名对象身上抽血,分离血小板并提取RNA,随后进行高通量测序,通过差异基因筛选和SVM建模,基于肿瘤血小板的RNA测序能够区分出228名是肿瘤患者(包括局部和转移肿瘤)和55名是健康个体,其准确率达96%。也可以区分6种不同类型的肿瘤,其准确率达到了71%。结果表明,肿瘤血小板mRNA为泛癌症检测、肿瘤分类和肿瘤突变基因诊断提供了一个有价值的平台,并促进了基于血液的液体活检的发展。

伯豪改进

伯豪生物的生物信息团队首先通过计算机对多种不同的特征选择和分类模型算法进行大规模计算评估,不断优化算法。

根据计算机模拟结果,特征选择模型为SVM,biomarker数量为400,逻辑回归作为分类模型。结果显示,伯豪算法的预测准确性为76%,由于文献中的71%。

原文出处:Best MG, Sol N, Kooi I, et al. RNA-Seq of Tumor-Educated Platelets Enables Blood-Based Pan-Cancer, Multiclass, and Molecular Pathway Cancer Diagnostics. Cancer Cell 2015, 28(5):666-676.