自2011年以来,一种被称为黄冠病综合症(YCS)的神秘疾病折磨着澳大利亚的甘蔗。这种情况导致其他健康植物的中冠叶片迅速变黄,达到植物糖产量可降低多达30%的程度。近年来,该综合症已蔓延到整个大陆。损失估计约为4,000万美元,种植者担心这可能会破坏澳大利亚的产业。
德克萨斯大学泰勒分校(UT泰勒)生物学助理教授,研究人员团队成员Kate Hertweck说:“在项目开始时,有很多可能性,但很少有证据表明原因。”这种疾病的原因。“这可能是由土壤中的水分或养分引起的生理反应。或者它可能是一种生物学原因,如昆虫,病毒或真菌。”
虽然一些研究人员使用现场实验和显微镜来研究这种疾病,但Hertweck及其来自澳大利亚Sugar Research和昆士兰大学的合作者正在寻求一种基因组方法,使用新一代RNA测序来比较和分析来自受影响和未受影响植物的遗传数据。三年时间跨度不同的领域。
“甘蔗是一种重要的农业作物,”Sugar Research Australia的高级技师Kate Wathen-Dunn说。“它还具有已知最复杂的遗传学之一,每个染色体有多个和可变数目。”
部分由于其复杂性,甘蔗之前没有参考基因组可用作研究人员的比较起点,因此Hertweck和Wathen-Dunn开始创建一个,专门用于植物的转录组:由表达的信使RNA分子生物体的基因,决定植物将产生什么蛋白质。
“通过这个转录组参考,我们可以比较黄冠层综合征和不同时间从不同品种和不同生长区域采集的对照样品,”Wathen-Dunn说。“由于涉及的数据量巨大,进行此组装的唯一方法是在高性能计算集群上。”
Hertweck和她的团队转向位于德克萨斯大学奥斯汀分校的德克萨斯高级计算中心(TACC)的超级计算机,进行大规模调查。TACC运行着世界上几个最大的超级计算机,每年为数千名美国研究人员提供支持。
转录组装配采用已经片段化和测序的RNA分子,并将它们按顺序排列。这个过程总是计算密集型,但是当有许多样本时 - 就像甘蔗研究一样 - 它可能特别难以处理。该团队从70个叶子样本中收集RNA序列数据,并使用多个算法和多个子序列来创建从头组装。
“即使是压缩形式,转录组装配的文件大小也是巨大的,”Hertweck说。“我开始意识到我需要比现有的更大的计算资源。”
他们创建的参考转录组允许团队探索不同样品如何表达不同的蛋白质,这为YCS的根本原因提供了线索。
到目前为止,Hertweck和她的团队已经对一部分数据进行了初步差异基因分析,并使用这些程序集来评估可能导致疾病的各种假设。
“如果它是细菌,那么就有可能表达的基因。如果是病毒,可能会表达不同的基因,”她说。“我们发现了一些可能是细菌迹象的差异,但这些差异有时也与实验室污染物有关。”
进一步的研究将确定基因表达是否与疾病的真正原因有关或是否是错误的信号。
他们还在数据中发现了几个物理(或非生物)压力信号,需要进一步调查。
“非生物胁迫在症状表达中非常重要,受YCS影响的甘蔗植物似乎对这些胁迫更敏感,”Wathen-Dunn说。“TACC提供的精彩计算资源使我们能够继续研究YCS的原因,并对甘蔗的新陈代谢做出新的发现。”
Hertweck和Wathen-Dunn在2016年进化会议上展示了他们的研究成果- 进化研究学会,系统生物学家协会和美国自然主义者协会联合年会。这项工作还在2016年澳大利亚生物信息学和计算生物学学会(AB3ACBS)会议上进行了介绍。
他们将在11月举行的2017年国际热带农业大会上展示他们的最新成果。
使用TACC资源深入研究甘蔗转录组的能力给Wathen-Dunn的澳大利亚合作者留下了深刻的印象。
“他们认为我们拥有可以管理所有这些的电脑真是太棒了,”她说。“它鼓励他们让一些员工接受培训,以便与高性能计算资源进行互动。”
TACC系统的研究与教学
当Hertweck在UT泰勒申请她的教职时,他首先了解了TACC。招聘信息提到,研究人员将能够通过德克萨斯大学研究网络基础设施(UTRC)计划使用TACC系统,自2007年以来,该计划为德克萨斯大学系统的14所院校的研究人员提供了获取TACC资源,专业知识和训练。
Hertweck于2015年参加了TACC暑期学院,并使用了TACC的先进计算资源,包括Stampede和Lonestar 5,用于草,百合,鸢尾,兰花和果蝇基因组的基因组研究。
赫特韦克说:“像我这样的小型地区性大学能够吸引优秀候选人的部分斗争是,我们在校园里没有当地的集群。”轻松访问TACC资源可解决该问题。
“人们对这类资源抱有巨大的需求。人们对能够利用它非常感兴趣,”她说。“我的工作是希望带来一个可以利用这些资源并为其他研究人员打开大门的人。”
赫特威克就是这样做的。除了自己的研究,Hertweck还是她的同事中的高性能计算的冠军,并使用TACC的Jetstream云计算系统向本科生和研究生教授生物信息学课程。在她的课程中,学生探索正在研究的细菌的序列数据,以用于未来的生物燃料应用和其他遗传上有趣的物种。
“全班毕业生和本科生对TACC系统进行基本分析。他们进行装配和基本分析,看看序列显示的是什么,”Hertweck说。“他们对分析新数据和找到很酷的东西的能力感到非常兴奋。我告诉他们:'你将获得一份以前从未见过的信息。'”
帮助研究人员和学生发现大自然的新方面 - 这正是TACC系统的基础。