【Nature综述】NGS十年发展史,是技术的创新,也是应用的革新

放大字体  缩小字体 发布日期:2017-09-27 来源: 华大科技BGITech 作者:基因谷 浏览次数:128

Nature Reviews Genetics 去年6月份刊出了一篇综述,盘点近十年来测序技术的发展。从最初的“高山仰止”到如今走进寻常百姓家,正是测序公司和科研人员们孜孜不倦的努力,推动了行业不断向前发展,而其中的佼佼者,也在特定的历史时期留下了属于自己的印记。

虽是一则旧闻,不过知识从没有过期。。。

自2003年人类基因组计划完成之后,测序技术发展迅猛,多种测序原理产品在市场上出现,接受市场的检验。测序读长不断加长、通量不断提升、时间不断缩短,促进测序成本快速下降,大量基因组序列被破译,测序物种数量和物种多样性与日俱增。

 

测序技术发展简史

“基因科技造福人类。”从时间的纵轴上看,NGS测序仪的出现具有非凡意义,测序技术的发展自此势如破竹、高歌猛进。最初个人全基因组测序费用高达令人咋舌的1亿美金,发展到2008年,一个100Gb数据量的人基因组只需几十万美金,降幅达99%。到今天,一个100Gb数据量的人基因组只需要1000美金左右,仅相当于1亿美金的五万分之一!

2001-2016年人基因组完成费用变化

风云十余载,都有哪些公司和测序系统在时代中留下了专属自己的印记呢?

一、NGS技术发展史


在测序技术发展初期,就像是春秋战国时期的百家争鸣,各种idea都会受热捧,大家都很有热情去尝试新技术。比较有代表性的是以下几种:

1

▌公司:454

▌系统:Genome Sequencer 20 System

▌时间:2005年

第一台NGS测序仪是在2005年出现的,454公司推出第一个基于焦磷酸测序原理的高通量基因组测序系统——Genome Sequencer 20 System,这是核酸测序技术发展史上里程碑式的事件。随后,罗氏公司以1.55亿美元收购了454公司,并在2006年推出了更新的GS FLX测序系统。

随着其他测序技术的出现,454技术读长长(最长可以到1000bp),且准确度高,在二代测序中属于佼佼者,却因其成本较高,市场接受度不高,导致2013年罗氏公司表示,它将在未来3年内关闭454生命科学测序业务,并裁掉约100名员工。今年年中其位于美国康涅狄格州布兰福德的454工厂也将最终关闭。

2

▌公司:Solexa

▌系统:Genome Analyzer(简称GA)

▌时间:2006年

2006年,Solexa公司也推出了自己的NGS系统——Genome Analyzer,简称GA。这套基于DNA簇(DNA cluster)、桥式PCR(Bridge PCR)和可逆阻断(Reversible terminator)等核心技术的系统具有高通量、低错误率、低成本、应用范围广等优点。2007年,Illumina公司以6亿美元的高价收购了Solexa,使GA得以商品化。

GA最早期的版本一次运行可获得1Gb的数据,因此也有1Gb Analyzer的含义,而最新的HiSeqX10平台则能够在3天的运行中获得16Tb以上的数据,读取的碱基长度达到150bp。

3

▌公司:美国应用生物系统公司(ABI)

▌系统:SOLiD

▌时间:2007年

在上述两家公司之前,测序市场的垄断地位一直由美国应用生物系统公司(ABI)牢牢掌控。自公司的共同创始人Leroy Hood在上世纪80年代中期设计了第一台自动荧光测序仪之后,生命科学研究就摆脱了手工测序的繁琐和辛劳,骄傲地迈入自动测序的新时代。

但是,2005年454推出了FLX焦磷酸测序平台,ABI的领先地位被撼动,于是,后者迅速收购了一家测序公司——Agencourt Personal Genomics,并在2007年底推出了SOLiD 新一代测序平台。从SOLiD到SOLiD 3,短短一年多时间,它已经上演了一出精彩的“一级方程式赛车”。到SOLiD 5平台的测序通量已达到30Gb/天,成本低于60美元/Gb,准确率高达99.99%。并且由于SOLiD系统采用的不是PCR反应进行DNA合成与测序,因此对于高GC含量的样本,SOLiD系统具有非常大的优势。

可以说,测序市场在2010年前后形成了454、Solexa和SOLiD三足鼎立的局面。但是后续SOLiD系统通量难以提升,且读长短、成本高,现已退出了历史舞台。

4

▌公司:华大基因

▌系统:BGISEQ-500

▌时间:2015

后续还出现了Complete Genomics公司的Black Bird测序仪、Life Technologies 公司的Ion Proton(如今被Thermo Fisher收购)系列测序仪等,不过都由于自身的短板导致市场份额逐渐缩小。

直至2013年3月18日,华大基因宣布以1.176亿美元完成对美国纳斯达克上市公司Complete Genomics的全额收购。历经两年的技术改进和研发,在第十届国际基因组学大会(ICG-10)上,华大基因正式发布了自主研发的新型桌面化测序系统BGISEQ-500。

BGISEQ-500具备精准、简易、快速、灵活、经济等特点,单项应用最快可在24小时内完成,针对个人基因组检测精度可达99.99%,充分满足科研和临床领域的不同测序需求,在测序准确度、一致性等关键指标上达到甚至超过成熟商业测序系统。

二、NGS原理特点(短读长测序)


5

模板扩增

模板需要放大信号,即我们通常说的建库,需要把待测序的核酸扩增,如下图所示,NGS技术模板扩增主要有以下四种策略:

1.乳液PCR【454(Roche),SOLiD(Thermo Fisher),GeneReader(Qiagen),Ion Torrent(Thermo Fisher)】

在乳液PCR,片段DNA模板与dNTP、引物和DNA聚合酶包在一个油滴中。在凝胶中进行PCR扩增,最后得到成千上万份相同的DNA序列。

2.固相桥式扩增【Illumina】

片段DNA分散到Flowcell上,与固定的引物结合,进行桥式扩增,从而形成很多DNA簇。

3.固相的模板移位【SOLiD Wildfire(Thermo Fisher)】

片段DNA与固定的引物结合,PCR扩增延长引物得到第二条链。然后部分变性,使得自由端可以与邻近的引物结合,再次扩增,起到放大的效果。

4.DNA纳米球【Complete Genomics】

片段DNA加两次接头,然后进行滚环扩增,形成一个DNA纳米球,最后纳米球通过杂交的原理固定在阵列的flow cell。

二代测序建库原理

6

测序原理

1.基于连接的测序原理(SBL)——SOLiD & Complete Genomics

简单说,SBL测序就是用1-2个已知碱基标记的探针与目标DNA杂交,然后再与下一个标记的探针连接,检测标记探针的信号,从而知道目标DNA的序列信息。

SOLiD的全称是Sequencing by Oligo Ligation Detection,即寡聚物连接检测测序,其基本原理是通过荧光标记的碱基单链DNA探针与模板配对连接,发出不同的荧光信号,从而读取目标序列的碱基排列顺序。

CG的测序原理叫组合探针锚定连接(cPAL),利用四种不同颜色标记的探针去读取接头附近的碱基,探针能够与DNA片段结合,T4 DNA连接酶连接探针和anchor,使探针稳定结合,从该探针携带的荧光基团的颜色为判断出该位置是何种碱基。当一轮反应结束后,去除anchor-prob产物,重复上一轮步骤测序下一个碱基。

基于连接的测序原理

2.基于合成的测序(SBS)

SBS这个术语是用来描述依赖DNA聚合酶来测序的方法,但是SBS方法又可以分为循环可逆终止(CRT)和单碱基添加(SNA)。

虽然Qiagen公司的GeneReader也是采用CRT的测序原理,但我们熟知的还是Illumina的CRT测序原理。四种dNTP被不同的荧光标记,每个循环就结合一个互补的碱基,拍四次照,四个照片重合,出现哪种荧光标记就可以确定是哪个碱基。反应之后荧光基团会被切除,这样就露出了3’羟基基团(-OH),可以与下一个碱基连接。

合成测序原理:CRT

另一种SBS测序方法叫单碱基添加(SNA),454焦磷酸测序和Ion Torrent都属于这种测序原理。SNA的方法依赖单个信号来标记每个测序的碱基。因为它不能终止反应,所以每次只能允许进一种碱基来防止继续延长。这样要是单碱基重复就会继续读取。

454是第一台NGS测序仪,它的SNA系统是含有特定引物的珠子连同酶混合物一起进入PicoTiterPlate,当有一个碱基连入DNA链,就会产生一个生物荧光信号,通过相机捕获。

Ion Torrent是第一台不用光学传感的测序仪。它是通过测序过程中产生的氢离子,使用CMOS-ISFET检测器来检测PH值来识别不同碱基。所以要是有连续碱基重复的情况下,准确度不高。

合成测序原理:SNA

7

单分子长片段测序

2013年英国Oxford Nanopore Technologies公司宣布将启动MinION测序仪的试用计划,参与者只需支付1000美元的押金以及运费,就可以收到一台MinION测序仪,包括测序USB装置、流动槽和软件。测序仪很小,是真正的掌上测序仪。但两年多了,市面上还没有看到这个测序仪的大规模使用,可能在性能方面没有达到预期。

目前开发者利用该测序仪体积小、建库快、实时产生数据等特点获得资本投资。2014年埃博拉病毒爆发,MinION测序仪以最快的速度破译病毒序列,这可能是目前为止它最突出的应用,希望未来会有新的突破。

Oxford Nanopore Technologies公司的MinION测序仪

目前比较受市场热捧的三代测序是PacBio的RSⅡ(测序原理见图2)。该测序技术不需要对目标DNA进行PCR扩增,而是直接在目标片段两端加上两个发卡结构的接头,形成一个连续的环状。单个DNA片段分布到Pacific Biosciences公司发明的一种直径只有几十纳米的纳米孔【zero-mode waveguides (ZMWs)】,单分子的DNA聚合酶被固定在这个孔内。A、T、C、G这四种荧光标记的脱氧核苷酸非常快速地从外面进入孔内又出去,当某一种荧光标记的脱氧核苷酸被掺入到DNA链时,这种特定颜色的荧光会持续一小段时间,直到新的化学键形成、荧光基团被DNA聚合酶切除为止。共聚焦显微镜实时、快速地对集成在板上的无数的纳米小孔同时进行记录。

单分子实时测序原理

8

人工合成长片段测序

另外一种长片段测序技术就是先把大片段DNA(>10Kb)用接头标记,然后建小片段文库得到短序列,根据接头信息拼接还原大片段(原理见图3)。

Illumina采用384孔板对大片段进行物理分离,使得每个孔里尽量只有一条DNA片段,每个孔分别标记,单独建小片段文库,最后所有文库混合形成一个文库,在HiSeq测序平台上测序。

10X Genomics则采用了乳液PCR的方法在单管里面操作,大片段DNA与凝胶珠子、引物、酶、dNTP等分布在一个个油滴里面,形成一种物理分隔。每个油滴里面有一种标签,形成一个小片段文库,最后加热使凝胶溶解、解除油滴封闭,混合产物在HiSeq测序平台上测序。这个平台的好处是采用了14个碱基的标签,油包水的方法可以使标签使用率最大化,且减少耗材和人工操作,更加利于推广。

.合成大片段测序原理

9

单分子实时测序VS合成大片段测序

表1.SMRT与合成大片段各有优劣

四、与NGS存在竞争或互补关系的技术


’测序不是万能的,不能解决所有问题。除了NGS之外,下面这4种技术各有优点,可以弥补它的不足之处。

1. DNA芯片

基因芯片早在上世纪80年代就在生命科学领域应用了。利用碱基互补原理,以单链DNA(ssDNA)作为探针,与目标DNA杂交,检测荧光信号来确定目标分子的强度(见图4中的a项)。应用很广泛,SNP分型芯片可以用于疾病筛查(如心血管疾病、癌症、病原菌)和GWAS分析;低分辨度的芯片还可以做结构变异、拷贝数变异、蛋白与DNA互作研究。表达谱芯片可以检测已知基因的表达量。

因芯片具有可重复性高、价格低、操作简单等特性,目前在基因组研究中应用广泛。表达谱芯片有可能被RNA-seq取代。

2.NanoString

美国NanoString 是继生物芯片技术和新一代测序技术(NGS)后,在基因表达谱分析上展示出强大应用前景的新技术公司。nCounter Analysis System是直接对基因表达进行多重计数的全新数字式技术,利用分子条形码和单分子成像来检测及统计每一个反应体系中特定转录本的数量,表现出极高的灵敏度、精确度和重复性。该技术上无需使用酶,无需反转录,也不需要做PCR 扩增,可进一步减少误差的产生,因此nCounter 在表达谱定量分析领域具有无可比拟的优势。

3.qPCR

实时荧光qPCR早在上世纪90年代就在临床和科研领域广泛推崇使用了。因它具有高灵敏性和特异性,被美国FDA承认并推崇,是当今世界用于临床的最先进核酸分子诊断技术。

4.Optical Mapping

Optical Mapping技术是基于限制性内切酶图谱的技术,可以称之为光学化或数字化酶切指纹图谱技术。将DNA固定在界面上,在界面表面进行酶切反应,然后将DNA进行荧光染色,并在显微镜下观测。每条DNA被酶切后的片段大小及顺序形成单分子限制性酶切指纹。软件利用酶切指纹组装成最终的指纹图谱。

该技术主要是用来辅助基因组序列组装:辅助延伸scaffold,使基因组图谱更精细;发现染色体的倒置、插入、缺失和置换;识别并纠正错误组装序列;检测gap大小及位置。

美国BioNano 公司开发的Irys系统在它的基础上进行改进,只是在DNA单链上切口(不切断),加入荧光基团,然后让整条DNA链通过纳米通道。他们的理想是最终真实展现染色体的情况,最新研发结果是可以让酵母12M的染色体完整展现。

与测序互补的技术

五、结语


虽然目前测序技术处于快速发展的阶段,新技术层出不穷,周期不断压缩、成本逐年下降,使得临床医生可以把基因组数据转化成具有临床指导意义的结果。但我们还面临新的挑战,如果想在临床上进一步扩大应用,那么时间是一个问题。因为目前测序技术从样品准备到数据分析完成还是需要几周的时间,但是对于恶性肿瘤的诊断和一些疑难杂症的诊断,可能只有几天的时间。

另一个挑战就是数据存储和数据分析。2013年有研究者推测,全球每年会新增15PB的数据。这么庞大的数据需要有创新性的存储系统和生物信息分析解决方法。

此外,消费者会对遗传检测结果作何反应?假阴性和假阳性结果对患者会带来什么影响?这些基因组数据的使用效果和伦理问题,是每一个业内人士都需要思考的。

参考文献:Coming of age: ten years of next-generation sequencing technologies


转载请注明出处。

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!

0条 [查看全部]  相关评论