您可以将DNA视为一串字母--As,Cs,Ts和Gs - 它们一起拼出细胞构建和功能所需的信息。你体内的每个细胞都有相同的DNA。因此,对于细胞承担不同角色,它们必须能够通过精确控制来打开和关闭特定基因。例如,在脑细胞中活跃的基因与在皮肤细胞中活跃的基因不同。
这部分是通过“DNA结合蛋白”的作用实现的,所述“DNA结合蛋白”在特定位置锁定人类基因组以打开或关闭基因。现在,由Katherine Pollard博士领导的格拉德斯通研究所的研究人员发现了这些蛋白质如何与DNA结合的重大发现。
传统上,科学家认为DNA结合蛋白使用As,Cs,Ts和Gs基因组代码中的模式将它们引导到正确的位置,给定的蛋白质仅与特定的字母序列结合。然而,许多蛋白质结合几种不同的字母组合,并且两种不同的蛋白质可识别相同的模式。
尽管存在多种重叠模式,但蛋白质似乎从未对它们应该结合的位置感到困惑。在发表于Cell Systems的新研究中,格拉德斯通科学家发现,蛋白质必须依赖另一条线索才能知道结合位置:DNA的三维形状。
“几十年来,我们很难解释蛋白质如何在DNA中找到正确的结合位置,以及它们如何以特定的方式做到这一点并且不会与错误的地方结合,”Pollard说,他是高级研究员兼主任。格拉德斯通数据科学与生物技术研究所。“我们假设这可以通过基因组的结构方面来解释。”
这是因为DNA的字母串也是一个物理的三维结构,扭曲成着名的双螺旋形状并包裹成一个微观的包装。在梯状结构中,在横档和侧面之间可以发现各种扭曲,凹槽和间隙。Pollard和她的团队意识到这些变化创造了一种选择蛋白质插入的钥匙孔。如果蛋白质上的凹槽与基因组上的凹槽不匹配,则密钥将不适合。
“有关于蛋白质如何相互作用或与化学物质结合的丰富科学文献,它总是通过一种锁定和关键机制;为什么与DNA结合的蛋白质会有所不同?” Md.Abul Hassan Samee博士说,他是Gladstone的博士后研究员,也是该研究的第一作者。“我们认为蛋白质作为3D结构停留在DNA上,就像它们与其他蛋白质或化学物质相互作用时一样。”
早期的工作提出了DNA形状为蛋白质提供了在哪里结合的额外信息的可能性,但尚不清楚这些形状有多大影响。为了测试他们的理论,研究人员采用了一种常用的机器学习算法,通常用于识别蛋白质结合的字母序列,除了现在他们正在寻找形状模式。他们发现超过80%的蛋白质与基因组中的特定形状模式结合。
研究人员表示,虽然蛋白质经常不读取基因组的字母代码,但字母序列对于决定这些蛋白质结合的位置仍然至关重要,但因为它定义了基因组的形状。奇怪的是,非常不同的字母序列可以指定相同的结构,而略微不同的字母序列可以导致截然不同的结构。
这一事实有助于解释蛋白质与DNA结合的两个最大谜团。首先,结合多个不同字母序列的蛋白质在相同的空间模式中归巢,其次,看起来共享字母序列的蛋白质实际上附着于非常不同的形状。更重要的是,经常与基因组结合的蛋白质被吸引到特定的形状,这些形状可能与它们单独结合时识别的形状不同。
目前的工作都是通过计算机建模完成的,因此研究人员的下一步是使用分子实验证明他们的理论。
“人们接受了As,Cs,Ts和Gs的模式,其中与DNA结合的蛋白质具有特定的形状,”Pollard说,他也是加州大学旧金山分校的教授和Chan Zuckerberg Biohub研究员。“但是没有人看过那些用这种字母模式解释的其他结合位置是否可能具有相同的形状。如果我们可以在一个菜中显示蛋白质可以识别DNA位置,因为它的形状,即使它不包含既定的字母序列,我认为这将改变游戏规则。“
近年来,科学家们发现大多数导致疾病的基因突变都不在基因本身。相反,它们发生在所谓的“黑暗DNA”中 - 99%的人类基因组影响基因打开或关闭的方式,时间和地点。随着他们最近的发现,研究人员打开了理解突变可能影响基因表达的新方法的大门,并因此影响细胞的功能。
“目前正在努力了解这种黑暗DNA中的突变如何导致疾病,这一点非常重要,因为对于大多数复杂疾病,大多数基因突变都在基因之外,”Samee解释说。“每个人都在查看字母序列并询问突变是否破坏了这些序列,但我们的工作表明你还需要询问突变是否正在改变DNA的形状。你可能有一个改变字母序列的突变,但如果它不改变形状,它可能并不总是改变蛋白质结合。“