许多生物医学研究人员正在努力理解随着基因组测序技术的最新进展而引发的大量数据。特别是,研究人员往往受限于让多种生物信息学工具相互“交谈”的挑战。为了满足这一需求,加州大学圣地亚哥分校医学院的研究人员与麻省理工学院和哈佛大学,斯坦福大学,魏茨曼研究所和宾夕法尼亚州立大学的实验室合作,开发了基于云的生物学家GenomeSpace。友好的平台,连接20多种生物信息学软件包和资源,用于基因组数据分析。
该团队现在正在开发和众包“配方” - 逐步工作流程 - 以更好地使非编程研究人员能够解释他们的基因组数据。这项工作在2016年1月18日发表在Nature Methods上的论文中有所描述。“现在新的测序技术可以产生比十年前更多的数据,分析数据所需的方法必须相应地更强大,”计算健康科学副校长兼教授Jill Mesirov博士说。加州大学圣地亚哥医学院和摩尔癌症中心的医学。“问题在于,只有一小部分生物医学研究界有专业知识来了解正确的方法或方法的组合,以解决他们的研究问题以及将这些方法应用于他们的数据的最佳方法。”
在GenomeSpace之前,研究人员(特别是没有编程技能)使得许多可用的分析工具协同工作非常困难。用户需要知道如何编写简短的计算机程序,以便在平台之间转换和传输数据。GenomeSpace现在通过用户友好的界面无缝地执行此服务,连接流行的基因组数据分析工具,如Cytoscape,Galaxy,GenePattern和Integrative Genomics Viewer(IGV)。其中一些工具本身就是“工具聚合器”,因此在连接它们时,GenomeSpace可以访问数百种生物信息学分析。
更重要的是,GenomeSpace不仅让用户自己决定针对他们特定研究问题的最佳工具。该网站还提供“食谱” - 易于遵循的示例工作流程,清楚地展示了研究人员应该使用的工具序列,以获取他们希望从原始数据中提取的信息。GenomeSpace目前提供13种食谱。该平台的开发人员现在邀请用户社区贡献他们自己的附加食谱。
“没有个别实验室可以开发所有正确有用的食谱 - 众包将有助于使GenomeSpace对非编程研究人员更有用,”加州大学圣地亚哥医学院的Michael Reich说,他是GenomeSpace开发团队的负责人。
以下是一个示例GenomeSpace配方的工作原理:一位研究人员想知道是否有一组特定的基因表明白血病干细胞的表达方式与正常的白细胞前体不同。她还想更好地理解这些差异表达基因的生物学机制,但不知道从哪里开始。通过GenomeSpace,研究人员可以简单地上传基因表达数据和关于两种细胞类型的其他信息(“成分”),并遵循GenomeSpace配方,专门针对这些类型的研究问题而设计。在这种情况下,配方告诉研究人员如何通过GenomeSpace中提供的两种工具运行数据成分:1)GenePattern,它找到两种细胞类型之间差异最大的50个基因列表和2)Cytoscape,
Reich表示,GenomeSpace提供的这类信息可以帮助研究人员更好地了解白血病的发展方式,并帮助确定新治疗方法的可能目标。
“我们的配方资源是以Tom Maniatis的经典分子克隆:实验室手册为蓝本的。我们希望,结合我们自己的开发和众包,增加资源并扩大其广度,”Mesirov说。“我们的长期目标是将这些描述性工作流转换为更具动态性的交互式界面,使其更易于遵循。”