疾病机制研究

疾病研究的科学思维

表型是一类能够被人们观察鉴定的生命体形态。从形态学层面到细胞学层面甚至分子生物学层面,此类形态伴随着生命体的生老病死。可以说对表型的观察是生命科学研究的根本。无论是遗传学之父孟德尔还是进化论之父达尔文,无不通过对表型的观察提出了杰出的理论。如果说临床医学主要聚焦于疾病表型的诊断,那么医学生物学则在表型的基础上着重于对内在本质的研究。使用合适的研究策略,透过现象看本质,是医学生物学研究的重点所在。

正向遗传学:从表型到基因型

正向遗传学是在获得疾病组织与正常组织的表型差异前提下,从表型入手,寻找产生表型的突变基因并且研究其具体分子机制。一个完整的正向遗传学研究包括以下几个主要步骤:疾病选择,样本收集,突变基因筛查以及分子机制研究。该方法的一大优势在于临床样本有显著的疾病表型,对后续的突变基因筛查和分子机制研究有着良好的生物学意义上的支持。然而,相比较其优势,正向遗传学的劣势也是显而易见的。正向遗传学研究需要大量的符合用于科学研究的临床样本,这针对那些罕见疾病的研究,却反而成为限制正向遗传学应用的瓶颈。

反向遗传学:从基因型到表型

由于正向遗传学在科学研究中对样本需求的局限性,人们同时也提出了反向遗传学的研究思路。一个完整的反向遗传学研究包括以下几个主要步骤:基因筛选,表型观察,分子机制研究。该方法相比于正向遗传学,其优势在于前期的基因筛选无需大量临床样本作为表型支撑。具有快速简单的特征。然而,反向遗传学的难点也恰恰在于此。对于一个完整的生命科学工作,没有表型数据的支撑充其量只是一个有趣的化学实验。因此,为了使整个工作提升生物学价值并且降低整个项目进展的风险性,在确定待研究的基因后,首先需要对该基因进行细胞系的过表达或者敲降实验,配合临床样本的表型分析,最后在确认表型之后,再进行大规模功能研究。

 

生命科学的发展促进了现代医学的进步

自20世纪70年代以来,现代生物学技术迅猛发展,从而极大地推动了现代医学的发展,特别是以分子生物学为代表的现代生命科学理论和实验技术,是的我们对疾病的认识深入到分子水平。20世纪80年代发明并逐渐应用的重组DNA技术和PCR技术,应用异常基因作为对象,借PCR技术可将基因拷贝数扩增至天文数字;用实时定量PCR(qPCR)检测基因的转录产物,灵敏度达10-11g(0.01ng)。开始于1990年由美、英、法、德、日合作进行的人类基因组计划,要将人体细胞的23对染色体中的30亿个碱基对进行识别和测序。此项工作原预期在2003年全部完成,但在2000年6月26日已提前公布了人类基因组图谱及初步分析结果,2003年4月30日宣布人类基因组的精细测序工作全部完成。这将阐明基因如何在决定人类生长、发育、衰老和患病中起作用提供结构基础,也为深入到基因和分子水平来认识遗传性疾病和遗传有关的疾病提供条件。进入21世纪后,随着人类基因组测序的完成,医学研究已从基因组学(genomics medicine)进入到后基因组时代(post genome era)。基因芯片和蛋白芯片等高通量技术的日臻成熟和应用,将为疾病的研究提供动态深入的综合信息,开展功能基因的研究,有助于发现疾病基因和抗病基因。生物信息学技术、生物芯片技术、转基因和基因敲除技术、酵母双杂交技术、基因表达谱分析、蛋白组学、结构基因组学和高通量细胞筛选技术等的应用为现代医学对疾病的认识提高到一个新水平。

 

高通量组学技术助力精准医疗

随着人类基因组计划(Human Genome Project)的完成,基因组测序技术取得了长足的进步,这直接导致了每兆基因组成本的大幅下降以及检测的基因组数量越来越多。人们对基因组的复杂性深感震惊,这也引导着测序技术的进一步发展。最近的一些突破性技术使得测序技术在更短的时间内可以获得更多的数据量。与之对应的是,还有一些技术的进步使得单条序列的测序读长变得更长——这对解析结构性的复合区段是极其必要的。这些进展给科研人员以及医疗诊断人员提供了一个绝佳的平台使得人们对基因组变异导致的表型变化以及疾病发生有了进一步的了解。

自从DNA的双螺旋结构被人们解析开始,人们在探究健康与疾病的基因组的复杂性与差异性上做出了巨大的努力。为了支持人类基因组计划的顺利进行,人们在仪器和试剂上做出了巨大的改进。该计划的完成使得人们强烈的意识到人们需要更多更好的技术与数据分析能力来回答随之而来的一系列生物学问题。然而,通量的限制以及居高不下的测序成本成为了人们进一步了解基因组的一道坎。2000年之后推出的高通量测序平台很好地解决了这个问题,人类基因组测序的成本直接因此下降50000倍,并且由此产生了一个新的名词:下一代测序(next-generation sequencing,NGS)。在过去的十年中,NGS技术不停的在进步,根据National Human Genome Research Institute的数据,人类基因组测序的成本也已经下降到1000美元/人。随着Illumina在2017年推出新一代的测序仪NovaSeq,人类基因组测序的成本甚至有望降到100美元。

 

基因组学研究

全基因组测序(Whole genomics sequencing)正在成为NGS在医学研究中最广泛的应用之一。通过该技术并且结合生物学应用,研究人员可以获得基因组信息中最值得注意的信息。举例来说,2012年,Ellis等报道了基因与乳腺癌患者芳香酶抑制剂(aromatase inhibitor)治疗法之间的关联。他们指出突变,后果与诊断之间的关联,同样还有癌症相关基因的突变的富集。这提供了一个可能性,即:乳腺癌有不同的突变造成不同的表型,具有复杂的病理学。最近的NGS平台的改进使得研究人员发现了一些几年前难以想象的新观点与机会。在2010年,1000例基因组计划(1000 genomes project)开放了其从179个个体中获得的WGS原始数据以及697个个体的测序数据。到2015年,研究人员已经构建了26个不同人群的2504个人的基因组群体。给人们从种群的角度来观察人类的变异。但这还不是该项目的终点,越来越多的人的基因组正在被得以测序。种群水平的测序已经成为人们更好的理解人类疾病的一个重要的工具,同样也得到了意想不到的结果。一个例子是,Sidore等对2120个撒丁岛人(Sardinians)的WGS研究发现了一些新的和脂肪相关的基因以及炎症的标志物,给人们对血液胆固醇的分子机制的研究提供了新思路。

全外显子组测序(Whole-exome and targeted sequencing)同样也广泛应用于测序的研究中。受制于基因组材料大小的局限,更多的个人样本可以在一个测序中实现,增加了基因组研究的宽度以及深度。使用外显子测序,Iossifov等对超过2500个单一的家庭进行测序,每个家庭都有一个小孩患有自闭症(autism spectrum disorder, ASD)。研究人员在30%的样本中发现了错意突变(missense mutations),基因干扰的突变(gene-disrupting mutations)以及拷贝数的变异。该工作与其他的工作一道鉴定到了ASD相关的基因突变。其他证据表明,高覆盖度的WGS也可以解决复杂的变异以及临床样本的分析。2015年,Griffith等认为可以使用一个完美的跨平台的方法(包含靶向测序)来鉴定肿瘤中高可信度的SNPs。该方法中,作者认为10000×的覆盖度可以鉴定到稀有突变。由于10000×的覆盖度对于WGS而言实在过高,靶向测序便在临床中得到了广泛的应用。

测序的方法除了能够应用于SNPs的高通量检测,目前也同时用于拷贝数变异(Copy Number Variation,CNV)和其它结构变异的研究。CNV作为一种介于染色体变异和DNA序列变异中间尺度的变异类型,已被证明与多种遗传性疾病和肿瘤密切相关。目前,在产前遗传病筛查和新生儿疾病诊断领域中,CNV变异已成为必不可少的检测项目;在癌症研究领域,CNV也已被多项研究证明参与了癌症的发生和发展,其数量和复杂程度更是许多癌症的预后指标。目前,相对于测序,基因芯片是检测CNV变异最为常用的方法之一,有着可靠、重复性好、分辨率高的特点。

 

转录组学研究

在对转录水平上的研究也因为组学技术受益匪浅。转录组是指特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合。在20世纪90年代末和21世纪初,随着DNA基因芯片技术的快速发展,开创了高通量转录组研究。近10年来,高通量测序技术得到了突飞猛进的发展,在此基础上,出现了高通量RNA 测序。与基因芯片技术相比,RNA-seq 无需设计探针,能在全基因组范围内以单碱基分辨率检测和量化转录本,并且具有更高的检测灵敏度和动态范围。在快速获得mRNA表达谱的同时,根据测定的序列同时可以对cSNP、可变剪接等转录本的序列及结构信息进行精确地分析;另外对于检测低丰度转录本和发现新转录本具有其独特的优势。随着测序成本的不断下降,RNA-seq成为了越来越受欢迎的转录组分析方法。

人类基因组只有不到2%的序列编码蛋白质,十多年前普遍认为基因组中那些剩余的序列大多都是进化过程中产生的“垃圾”和“噪音”。然而ENCODE计划证明人类基因组剩余的“垃圾”序列至少80%都是有功能的,这些序列的转录产物就包括大量的非编码RNA。ncRNA中除了众所周知的tRNA、rRNA等,多种具有调控功能的ncRNA越来越被大家所关注,例如研究非常成熟的miRNA。紧接着,lncRNA,circRNA等非编码RNA也开始进入大家的视野,并且迅速成为研究的新热点。这些ncRNA往往具有组织和细胞特异性,在表观遗传调控、转录及转录后调控等水平参与蛋白编码基因的调控。

今天,研究人员甚至能够使用深度测序对单个细胞进行研究。2014年,Treutlein等使用了组织发育过程中不同细胞类群的单细胞RNA测序发现了用于鉴定细胞亚群的标志物。此外,尽管长读长测序相对而言在对转录本的定量上不占优势,但是,长读长可以在研究转录组的结构上有所帮助。举例来说,最近的人类长读长转录组测序研究表明 >10%的reads是新的可变剪切体。

 

表观组学研究

组学技术同样在表观遗传修饰研究中有广泛的应用。表观基因组学(Epigenomics)主要研究基因组水平上的表观遗传学改变,即研究非DNA序列改变的化学修饰所导致的基因表达水平的变化。在基因组学中,表观遗传修饰主要包括DNA甲基化、组蛋白修饰、染色体重塑等。

DNA甲基化在人类表观遗传、胚胎发育、基因组印记及肿瘤发生中的重要作用。近些年,随着DNA甲基化研究的深入,DNA甲基化分析方法层出不穷,按其原理的不同,主要可分为依赖于甲基化敏感的限制性内切酶技术、依赖于DNA序列分析的检测技术和依赖于甲基化芯片、质谱的检测技术等。2010年,Flusberg等发表了一个概念性的研究方法,即:使用PacBio来区分甲基化与非甲基化的碱基。由于聚合酶即便是甲基化的碱基也能够延伸,但在甲基化位点上会停留更多的时间,因此这里改变的信号可以认为含有甲基化修饰。

RNA的修饰和DNA修饰相比,其组成更加复杂,有研究报道,包括m6A甲基化修饰在内的修饰种类就已经达到了上百种之多。如何能够最大程度的鉴定这些修饰位点是RNA的表观转录组学研究的关键所在。除此之外,针对RNA上百种的修饰,其生物学意义也是值得我们去广泛研究的。针对此,我们可以使用针对RNA的高通量测序技术结合正向遗传学与反向遗传学研究思路,对RNA的修饰进行大规模的鉴定与生物学研究。

 

宏基因组学研究

在人体内“定居”的微生物对人类健康的影响极其深远。人体内微生物的数量是人类细胞的10 倍之多,这些微生物的编码基因总量是人类基因数目的 50-100倍,被统称为宏基因组(metagenome)。基于NGS技术,宏基因组测序避开了微生物分离培养的过程,为微生物的研究提供了高效的研究工具。随着测序通量和数据分析能力的不断提高,宏基因组测序液从16S rRNA测序发展到全基因组鸟枪测序,从而能够在基因水平上研究微生物之间以及微生物与宿主之间的相互作用,更好的诠释人体微生物与人类健康的关系,同时也有助于疾病的预防和治疗。

 

多组学整合研究

生命现象的发生和调控过程是极其复杂的,在肿瘤、自身免疫疾病、代谢疾病等复杂疾病的发生发展过程中,在干细胞分化、胚胎发育与物种进化等生命现象中,会涉及到基因组、转录组、蛋白质组及表观遗传等多层面的变化及调控。在大数据时代,将多个组学数据结合起来的整合研究——多组学(Multi-omics)研究,是一大趋势。对于一个复杂的疾病或生命现象的研究,要综合考虑其表型以及生理生化指标以及基因组、转录组、蛋白质组、表观遗传及代谢组等多层面的变化。将上述多组学的数据整合分析,以掌握其全局的变化过程,为研究其调控机制和精准医疗提供综合解决方案。

多组学的数据分析中涉及到甲基化对mRNA与lncRNA乃至miRNA的转录前调控作用;lncRNA对mRNA的转录前及转录后调控作用;miRNA对mRNA的转录后降解和抑制的调控作用;内源竞争性RNA(ceRNA)通过对miRNA的结合而对mRNA的调控作用;CNV对基因表达的剂量效应;SNV对基因功能的影响以及对信号通路基因的激活和抑制作用,等等。