科学家正在利用机器学习来识别蚊子基因组中的重要DNA序列,这些序列可以调节昆虫细胞的发育和行为。该研究项目由美国国立卫生研究院(NIH)资助,可能对疾病控制产生影响,可能有助于利用基因工程控制蚊子种群,或制造传播疾病的能力降低的蚊子,如疟疾,对人类
“我们的工作将在蚊子基因组学和遗传学领域开辟新天地,”布法罗大学Jacobs医学和生物医学科学学院生物化学教授Marc Halfon博士说。“蚊子每年造成数十万人死亡。尽管我们知道蚊子基因组的序列,但我们几乎没有关于该基因组序列的功能信息。
“我们的工作将采取重要措施来填补这些至关重要的缺失信息。它将证明我们能够在各种昆虫疾病载体的基因组中对调控元件进行功能性注释,而无需为每种载体提供广泛且昂贵的新基因组规模实验数据。”
该项目由国家过敏和传染病研究所提供的449,000美元资助。它着重于冈比亚按蚊(Anopheles gambiae),这是疟疾传播的重要载体。
使用机器学习来解释蚊子基因组
在每种植物和动物的基因组中,都有调节开关 - 控制基因行为的DNA串,指示身体何时何地打开和关闭不同的基因。
这些调节序列很重要,因为它们可以影响物种的交配成功和对杀虫剂的抗性,Halfon说。此外,调控机制对于蚊子的基因工程至关重要,其中研究人员试图控制在目标动物中引入的外源或突变基因的表达。
十多年来,Halfon与UB的计算研究中心合作建立了一个名为REDfly的数据库,该数据库包含超过5,600个不同昆虫物种的果蝇序列,即果蝇果蝇(Drosophila melanogaster)。现在,他的团队正在利用这些信息来更多地了解蚊子基因组内的调控机制。
在伊利诺伊大学厄巴纳 - 香槟分校的计算机科学家Saurabh Sinha,Halfon开发了一个名为SCRMshaw的软件,它学习REDfly中的调控序列,然后在其他昆虫的基因组中搜索具有相似性的DNA串。该软件已经成功地鉴定了蚊子中的调节序列,其看起来与人眼的果蝇序列完全不同,但具有相似的性状(例如含有相关的短3至6个字母的DNA子序列)。
“发现监管要素很难传统,它是通过一次检查一个基因的繁琐的实验工作来完成的,”Halfon说。“我们想知道如何更快地做到这一点:只要看一下DNA序列,你能告诉监管要素在哪里吗?至少在某些情况下,答案似乎是'是'。”
早期实施SCRMshaw
在蚊子中使用SCRMshaw,Halfon,Sinha及其同事能够识别一些可能导致基因网络活动的调控序列从腹侧神经索的中线 - 类似于人类脊髓 - 转移到侧面在蚊子埃及伊蚊的胚胎形成期间,传播寨卡,登革热和基孔肯雅热。
这项工作于6月21日在线发表在“ 发育生物学 ”杂志上,重点介绍了SCRMshaw如何确定非果蝇物种的调控序列。“它显示了我们如何使用SCRMshaw来解决有关发展和进化的有趣生物学问题,”Halfon说。下一步是利用新的NIH资金对冈比亚按蚊(Anopheles gambiae)内的监管要素进行广泛发现。
“我们将集中精力确定最有用的监管序列,以了解与其作为疾病媒介的作用相关的蚊子生物学方面 - 例如,唾液腺或中肠的发育,或嗅觉 - 或可能对生物防治方法,如影响繁殖的基因,“Halfon说。“一旦我们产生了一套高可信度的监管要素预测,我们就会在转基因蚊子中对它们进行测试。”
新的NIH项目是UB和马里兰大学之间的合作。REDfly数据库的持续发展将为这一努力提供支持,该数据库得到国家综合医学研究所的120万美元资助,NIH的一部分以及国家科学基金会447,000美元的资助。