解码生命|持续高歌猛进的DNA 测序技术

 

科学界的远见卓识与政府立法机构、行政机构、相关业界的同步和共鸣,推动了时代科学与技术的进步,奠定了科学与技术突飞猛进的社会基础。

 

在生命科学领域,有一种技术几乎是与科学发展的需求齐头并进的,它是分子生物学实验室必备的一种技术。记得小编刚入实验室,导师就扔给一本《基因工程》,先好好看看原理,再去跟师姐学习怎么去操作。

 

写到这里,小编的回忆里都是泪啊,想当年每天跑PCR,看到条带就欢喜,看不到条带吃饭都不香。虽然DNA 测序技术都交给PCR仪,但是结果总是那么让人意外。

 

言归正传,如今有幸与贺林院士主编的《解码生命:从多视角看生命》结缘,不免重温以前的功课,也想与读者一起,跟随大咖的脚步,一起回顾并展望DNA 测序技术。

 

高歌猛进的DNA 测序技术

 

在20 世纪80 年代,桑格法DNA 测序就成为每个生物化学实验室,尤其是分子生物学实验室必备的技术。那时,测定一个基因(长度中值约30kb)的全序列,需要一个博士生花上一年甚至几年的时间。要测定拥有30 亿碱基对的人类基因组并获取基于数以千计人类个体基因组多态性的遗传学数据,无疑需要至少每年几十万人到几百万人的工作量。因此,没有一个大科学计划,不动员全世界的科学家来参加,不在计划的执行过程中突破技术瓶颈,仅具有这样宏伟目标的科学思想是不可能实现的,而且,这三个必需条件缺一不可。

 

伴随“人类基因组计划”的策划、实施和完成,DNA 测序技术的发展已经经历了4 个历史性的转折。

 

劳苦功高的第一代DNA 测序技术

 

桑格法测序技术发明于20 世纪70 年代,80 年代开始被普遍使用,80 年代末实现革新,其核心技术在不断被优化和提高。“人类基因组计划”的技术基础之一就是这个测序方法,尽管对优化后的测序成本的预期是“一美元换一个核苷酸”(Hood et al.,1987)。人类基因组的分步克隆法测序策略(Yu et al.,2006,Wong et al.,1997)完全是依赖这个技术的“革新版”,即四色荧光法。然而,当第一个人类基因组被完全解读后,科学界的普遍共识则是迫切需要新的技术革命。因为完全测定一个人的基因组真的需要花费上亿美元,而我们需要的是要在未来,以较低的成本、用最短的时间和最高的效率来最准确地测定每个人的基因组(Richterich,1998)。

 

基于桑格法的第一代测序设备所涉及的核心技术有三个:一是酶法合成DNA 并在终止DNA 合成过程中标记末端核苷酸,二是利用凝胶电泳将新合成的核苷酸链按合成终止时的长度分开,三是实现分离后DNA 片段的检测。由于读长、通量、准确度等优势,基于毛细管电泳的全自动桑格法测序仪目前还保留有一定的市场,多用于序列的验证(不同方法)、法医鉴定(较好的准确度)等。这类仪器市场的长期前景要看二代测序仪的技术优势可否具有全面的颠覆性,以及仪器生产厂家是否有利可图。

 

第二代DNA 测序技术的崛起

 

第二代测序仪的主要突破是运用了酶合成(聚合酶或连接酶)荧光循环标记法,其技术平台也实现了彻底的更新——流洗室取代了电泳槽。不过,DNA 模板的扩增(PCR 或等温)和底物的荧光标记还是从第一代测序平台延续下来了,只是模板的扩增是发生在原位,形成一个纳米微聚体(nano-ball)。为什么叫纳米微聚体呢?究其原因是这个扩增产物的长度一般为200~500 bp,大约在一个直径小于1000 nm的表面积上。每一个循环聚合酶反应都会在这个点上标记同色(通过对每个位置的四次标记读取四种脱氧核苷酸)或不同色(通过四色荧光同时标记四种脱氧核苷酸)的荧光。第二代测序仪的技术平台也具有一定的多样性,如基于半导体电传感和光电转换器件CCD(charge coupled device)的技术平台等。在荧光底物的设计上也有所变化,如标记碱基、标记3′端的“虚拟末端终止者”(virtualterminator)等。

 

第三代单分子测序仪

 

第三代测序仪的共性参数是单分子和长读长,而核心技术却各自不同,即ONT 的蛋白质纳米孔和PacBio 的ZMW。尽管这两个核心技术都有流洗过程,也有流洗室,但是其附加结构复杂、一体化并可以实现单分子检测,所以称为第三代测序仪。那么,新出现的第三代技术也至少要延续这两个参数。例如,固体纳米孔的设计和使用,如果能够与ONT 的蛋白质纳米孔技术媲美的话,也应该能够实现可观的测序长度。

 

目前的第三代技术还可以测定DNA 中的甲基化核苷酸,如m6A(6-甲基腺嘌呤)和5-mC(5-甲基胞嘧啶)及其衍生物,包括5-羟甲酰胞嘧啶(5-hmC)、5-甲酰胞嘧啶(5-fC)和5-羧甲酰胞嘧啶(5-caC)的准确测定就理论上来讲也应该是可行的。问题在于在RNA 分子层面上,更加复杂的修饰核苷酸是否能够被在单分子水平一一准确测定。因此,我们不得不期待第四代测序仪能够实现这个最终极的理想。

 

第三代测序仪现有的技术系统,亦即其核心技术组合,都还没有实现从单细胞出发。因此,从单细胞出发可能会成为第四代测序仪的一个重要技术性参数。理论上来讲,目前的两个三代测序仪系统是可以实现从单细胞出发来测序的,主要是需在系统外加上单细胞DNA 分离和建库(加某种特定寡聚核苷酸序列的接头,并用于产物的扩增)模块。目前实现了的所谓单细胞测序是指通过另外一个商业化的装置,如10×Genomics 的微流控建库设备,来实现DNA 文库的构建和扩增,最后上样到测序仪。

 

第四代测序技术参数的预期与技术汇聚

 

第四代核苷酸测序技术参数的定义可以总结为“双单四定”。“双单”就是从单细胞出发,实现单分子分辨率;“四定”就是定性(DNA 序列与RNA 序列,以及所有的共价修饰核苷酸位点)、定量(如拷贝数变化与修饰微点被修饰频率等)、定时(如某转录本及其修饰位点在细胞周期中的拷贝数变化)、定位(如RNA 或线粒体基因组在细胞周期的拷贝数变化与加工运输状态)。

 

实现“四定”需要在核心技术上打“组合拳”。“定性”是要测定核苷酸的序列并包括共价修饰核苷酸位点。目前的最佳手段是利用纳米孔(蛋白质纳米孔或固体纳米孔)测序技术。“定量”是要确定多聚核苷酸在单细胞内的拷贝数,如线粒体基因组在给定细胞中拷贝数的变化、某个转录本的多样性和表达周期等。这里我们可以用取样测序的方法,也可以用荧光标记探针法,还可以用数字PCR 法等定量。“定时”也是时间轴上的定量,需要在样本制备上分秒必争。高分辨率的研究可能要依赖荧光标记和超分辨技术的配合。“定位”也是定量、定时的进一步叠加,用于确定转录本的亚细胞定位,并通过序列识别(分子间杂交)和复杂结构中主成分的标记等来实现。

 

终极设计:BPU——高通量的精准片上实验室

 

核苷酸测序技术也好,蛋白质组技术和代谢组技术也好,都是要获得细胞组分的“四定”数据,这个过程可以笼统地称为生物检测(bioassay),那么处理(processing)这个检测的单元(unit)就是生物检测处理器(bioassay-processing-unit,BPU)了。这里面有三个基本概念:首先是生物检测,其次是处理,然后是单元或器件。“生物检测”是多种多样的,核苷酸测序和分型就是对象相同、目的不同的一类生物大分子的检测。“处理”在这里指基于某种原理或方法进行检测,通常是生物化学或分子生物学层面的过程,如基于PCR 的检测、基于聚合酶的检测,甚至是基于抗原抗体结合的检测。“单元”或“器件”在这里是指实现检测原理的仪器或装置。可见,BPU 可以是多种多样的,处理器可以有几种针对不同对象的设计,这个装置则可以有一定的通用性。比如,是否能够有一个装置既能够测DNA 序列,又能够测RNA 序列,也能够做基因分型呢?如果有一个这样的技术汇聚平台,能用来检测单分子荧光(如TIRF),那么这个平台一定能够检测抗体与抗原的结合,检测蛋白质的存在和定量。这个BPU 平台可能只需要相似的一个片上光学设计就可以了,这就是片上实验室(lab-on-chip)的简单原理之一。

 

结语

 

尽管大家都不怀疑“生命世纪”最终会如期而至,然而时间轴上的细节,主要是依赖新思维框架、新技术突破、市场需求的应用开发,以及深度的跨领域普及。坦白地说,我们对生命体不同组分规模化的定量分析(如正在被无限细分的各类“组学”)还远没有步入“自由王国”,我们渴望以核酸分析为生命解码的起点,形成这场“马拉松式赛跑”的引领者。生命科学发展的历史证明新技术突破的关键作用,未来也必定是如此。因此识别这些技术瓶颈,积极寻找突破点,并设计实现突破乃至颠覆性取代现有技术的途径都至关重要。

 

 

 

 

文章转自基因谷