在人类基因组计划于2003年完成之后 - 人类基因组中对所有30亿个“字母”或碱基对进行了测序 - 许多人认为我们的DNA将成为一本开放的书。但是一个令人困惑的问题很快就出现了:尽管科学家们可以转录这本书,但他们只能解释一小部分。神秘的大多数 - 多达98% - 我们的DNA不编码蛋白质。这种“暗物质基因组”大部分都被认为是非功能性的进化残羹剩饭。然而,隐藏在这种非编码DNA中的是控制数千个基因活性的许多重要调控元件。更重要的是,这些元素在癌症,心脏病和自闭症等疾病中发挥着重要作用,它们可以成为可能治愈的关键。
2017年2月2日,美国国立卫生研究院(NIH)宣布为全国范围的项目设立新的拨款资金,作为完全绘制和注释人类基因组功能序列的主要持续努力的一部分,包括这种沉默的大多数五个“表征中心”,包括加州大学旧金山分校的两个,用于研究这些调控元素如何影响基因表达,从而影响细胞行为。
该项目的目标是科学家利用最新技术,如基因组编辑,深入了解有朝一日可能导致复杂遗传病治疗的人类生物学。
基因组语法的重要性
在人类基因组计划的不足之后,国家人类基因组研究所(NHGRI)于2003年9月启动了DNA元素百科全书(ENCODE)项目。ENCODE的目标是找到人类基因组的所有功能区域,无论它们是否形成基因。
美国国立卫生研究院项目主任Elise Feingold博士说:“人类基因组计划绘制了人类基因组的字母,但没有告诉我们任何关于语法的信息:标点符号在哪里,起点和终点在哪里。” “这就是ENCODE正在努力做的事情。”
该倡议显示,数百万这些非编码字母序列执行必要的调节操作,例如在不同类型的细胞中打开或关闭基因。然而,虽然科学家已经确定这些调节序列具有重要功能,但他们不知道每个序列的功能是什么,也不知道每个序列影响哪个基因。这是因为序列通常远离其目标基因 - 在某些情况下远离数百万个字母。而且,许多序列在不同类型的细胞中具有不同的作用。
NHGRI的新补助金将允许五个新中心开展工作,以确定这些监管序列的功能和基因目标。在加州大学旧金山分校,其中两个中心将设在Nadav Ahituv博士和Yin Shen博士的实验室。其他三个表征中心将设在斯坦福大学,康奈尔大学和劳伦斯伯克利国家实验室。其他中心将继续关注绘图,计算分析,数据分析和数据协调。
细胞条形码显示监管功能
新技术使监管序列的功能和目标更容易识别。科学家现在可以操纵细胞以获得有关其DNA的更多信息,并且,由于高通量筛选,他们可以大批量进行,在一个实验中测试数千个序列而不是逐个测试。
“过去在基因组的非编码部分测试功能非常困难,”生物工程和治疗科学系教授Ahituv说。“有了基因,就可以更容易地评估效果,因为相应的蛋白质会发生变化。但是对于调控序列,你不知道DNA的变化会导致什么变化,因此很难预测功能输出。”
Ahituv和Shen都在使用创新技术研究增强子,这些增强子在基因表达中起着重要作用。人体内的每个细胞都含有相同的DNA。决定细胞是皮肤细胞还是脑细胞或心脏细胞的因素是打开和关闭哪些基因。增强子是打开细胞类型特异性基因的秘密开关。
在ENCODE的前一阶段,Ahituv和华盛顿大学的合作者Jay Shendure博士开发了一种基于慢病毒的大规模平行报告基因检测技术,用于鉴定增强子。通过新的资助,他们将使用该技术测试ENCODE先前确定的100,000个调控序列中的增强子。
他们的方法将每个调控序列与15个随机生成的字母的独特DNA条形码配对。甲报道基因被卡在序列和条形码之间,以及整个包被插入到细胞中。如果调节序列是增强子,则报告基因将打开并激活条形码。然后DNA条形码将编码细胞中的RNA。
一旦研究人员发现报告基因被打开,他们就可以轻松地对细胞中的RNA进行测序,以查看哪个条形码被激活。然后,他们将条形码与其相应的调节序列相匹配,科学家现在知道这是一个增强剂。
“通过以前的增强子检测,您必须逐个检测每个序列,”Ahituv解释说。“通过我们的方法,我们可以克隆数千个序列以及数千个条形码,并立即对它们进行测试。”
删除序列以了解其角色
Shen是神经病学系和人类遗传学研究所的助理教授,他正在采用不同的方法来表征调节序列的功能。她与路德维希癌症研究所和加州大学圣地亚哥分校的前任导师Bing Ren博士合作开发了一种高通量CRISPR-Cas9筛选方法,用于检测非编码序列的功能。现在,Shen和Ren正在使用这种方法来识别哪些序列具有调节功能,以及它们影响哪些基因。
Shen将使用CRISPR编辑大量细胞库中的数万个调控序列,并跟踪编辑对通常共表达的60对基因的影响。
对于这项工作,每个细胞将被编程为反映两种荧光颜色 - 每个基因一个 - 当一对基因打开时。如果细胞中的光熄灭,科学家们就会知道它的靶基因已经受到基于CRISPR的序列编辑之一的影响。最后一步是对每个细胞的DNA进行测序,以确定哪个调控序列编辑导致基因表达的变化。
通过监测共表达基因的颜色,沉将揭示许多功能序列和多个基因之间的复杂关系,这超出了传统测序技术的范围。
“在最近的CRISPR发展之前,不可能大规模地对非编码序列进行遗传操作,”Shen说。“现在,CRISPR可以扩大规模,以便我们可以在一个实验中筛选出数千个调控序列。这种方法不仅告诉我们哪个序列在细胞中起作用,还告诉我们它们调节哪个基因。”
暗物质DNA可以治疗疾病吗?
通过对数千个调控序列的功能进行编目,Shen和Ahituv希望制定关于如何预测和解释其他序列功能的规则。这不仅有助于阐明暗物质基因组的其余部分,还可以揭示复杂遗传病的新治疗目标。
“已发现许多人类疾病与调节序列有关,”Ahituv说。“例如,在针对常见疾病(如糖尿病,癌症和孤独症)的全基因组关联研究中,90%的疾病相关DNA变异体都在非编码DNA中。因此,它不是一种改变的基因,而是一种调节它的基因。 “
由于人类基因组测序的价格已大幅下降,因此有人谈论使用精准医学治疗许多严重疾病。然而,如何解释非编码DNA突变的障碍仍然存在。
“如果我们能够表征这些功能并确定这些调控序列的基因目标,我们就可以开始揭示它们的突变是如何导致疾病的,”沉说。“最终,我们甚至可以通过纠正监管突变来治疗复杂疾病。”