随着NexGen测序仪以创纪录的数量生成廉价的DNA数据,基因组学研究人员一直在“云九”。除了一件事:从基因机器中涌出的数据正在淹没计算机基础设施 - 从最小的RO1实验室到最大的测序中心。
例如,国际1000基因组项目迄今为止产生的数据集,使用NexGen建立最详细的人类遗传变异目录的努力,达到50TB。这是50,000,000,000,000字节的数据。由于计算机网络通常以每秒1千兆位的速度运行(一个字节中有8位),下载1000 Genome Project数据集需要4.6天以上 - 而且只有实验室的硬盘阵列足够容纳这一切。
然而,解决方案可能在云端 - 计算机云,即。云计算是一种空灵的,短暂的概念,依赖于互联网利用的计算机网络来咀嚼特定的计算问题。而这些云似乎有一线希望,这就是微软,谷歌甚至亚马逊等重量级企业开始提供云计算服务的原因。对于研究人员来说,这可能是一种经济有效的解决方案
为了找到答案,国家人类基因组研究所(NHGRI)最近举办了一个研讨会,讨论云计算能否清除一些可能会减缓基因组测序医疗保健进展的数据瓶颈。从支付互联网服务提供商提供的服务是否更便宜 - 而且更安全,特别是对于患者数据 - 而不是在每个主要研究人员的实验室中反复支付独立数据中心的费用。
“毫无疑问,数据管理和分析已成为基因组科学的新瓶颈,”NHGRI信息学和计算生物学项目主任,云计算研讨会组织者Vivien Bonazzi博士说。“美国国立卫生研究院必须弄清楚如何支持其受助者不断增长的计算需求 - 无论是为每个RO1实验室支付费用来创建自己的数据中心 - 这可能是昂贵的 - 或者找到另一种方法。我们想开始思考关于云计算是否可以成为解决方案。“
大量先例表明它可能会。例如,家庭项目的SETI(参见:SETI @ HOME)在通过互联网链接的闲置家用计算机上使用屏幕保护软件来分析搜索外星生命(SETI)的射电望远镜的数据。虽然SETI还没有找到任何一个小绿人,但它在数千台普通PC中创造了一台超级计算机。可以想象,云计算可以为基因组研究做类似的事情。
在过去的几年里,像亚马逊,谷歌,微软和其他互联网电力公司这样的公司已经开始提供云计算解决方案作为一种服务,插入其强大而庞大的计算机服务器网络。许多在线公司使用云服务来管理他们的应用程序或库存和订购系统。任何在亚马逊上订购书籍或使用Twitter或Facebook等社交媒体网站的人都可以从云计算中受益。
作为一项合同服务,云服务提供了一种灵活的模型,可以访问并将数千台计算机的功能集中在一个大型科学问题上,该问题可以在全球任何地点按需使用和支付。然而,云计算解决方案仅处于起步阶段,因此仍存在挑战。
美国麻省理工学院麻省理工学院和哈佛大学的副主任兼首席信息学官Jill Mesirov博士是NHGRI的大型测序中心之一,他描述了目前中心所面临的计算问题的状态。和基因组社区。“这是一个严重的问题,对我们来说只会变得更糟,”Mesirov博士说,他正在评估云计算,看看它对Broad有何帮助。
Broad Institute的基因组测序平台目前每年从NexGen测序平台产生大约2PB的数据。1 PB等于100万GB。目前,该中心拥有大约5.8PB(即5,800,000,000,000,000字节)的存储空间。除了存储,Broad的计算基础设施和员工必须协商不同类型的数据以及各种基因组分析软件工具的集成,这些工具都需要Mesirov博士团队的创新。
她认为云计算可以提供一种扩展和支付可变计算需求的方法,并且可能提供经常在大型团队中协作的基因组研究人员,这是一种在实验室,项目和机构之间共享大型数据集的方法。“这可能是一些问题的答案,但不是其他问题,”梅西罗夫博士说,他认为在生物医学研究人员采用云计算之前需要清除许多障碍。
障碍包括将数据移动到云端并返回,将自定义应用程序上传到云端,在云计算的低成本和维护数据控制之间进行权衡,应用程序互操作以及与生物相关的无数隐私和安全问题 - 尤其是患者 - 数据。
从私营部门,政府和学术界,有许多团体正在努力克服这些问题并优化云计算,以便为生物学和许多其他研究领域工作,从工程到监测地球气候。例如,微软公司,华盛顿州雷蒙德市和美国国家科学基金会(NSF)联合起来,让NSF选择的个体研究人员在未来三年内免费访问微软云平台Windows Azure。谷歌和IBM已经与NSF展开了类似的努力,推出了Cluster Exploratory(CluE)计划,该计划让NSF资助的研究人员可以访问Google-IBM集群。
根据微软Extreme Computing Group云计算未来架构师Roger Barga博士的说法,该公司一直试图让世界各地的研究人员和学术界人士了解如何组织研究人员社区,并确定他们进行研究所需的核心服务和产品。
当然,基因组研究界不会等待答案,并开始积极地在云中进行实验。在亚马逊的弹性计算云(EC2)基础上,一项名为Galaxy的努力结合了现有基因组注释数据库和简单Web门户的信息。
Galaxy由NHGRI,宾夕法尼亚州立大学和加州大学圣克鲁兹分校的计算机科学和生物研究人员建造。目标是使研究人员能够搜索多个远程基因组资源,并结合来自许多查询的数据,从而产生序列和比对的视觉结果。Galaxy允许用户保存他们的分析,以便于共享和集成来自其他分析的数据。
“未来还有很多有趣的时期,”BioTeam的创始合伙人兼技术总监Chris Dagdigian表示,该公司向生命科学研究人员提供包括云计算在内的技术解决方案。
Dagdigian在研讨会上谈到了云计算的一些技术挑战,提出了另一个观点:虽然云计算最终可能足以分析大型生物和基因组数据集,但目前这些云的当前版本并非如此为生物学家而建。相反,他们正如Dagdigian所说,“主要是为Facebook和世界的Twitters而建。”
虽然DNA测序在未来几年将继续变得更便宜和更有效,但解释信息所需的信息学工具和专业知识的开发却是相反的 - 昂贵且难以实现 - 包括云计算。
但是,正如NHGRI促进了DNA测序的改进,该研究所将采用NHGRI云计算研讨会上提供的信息,并将其提供给4月底举行的更大的信息学会议,以决定如何最好地应对信息学挑战。基因组时代。两个研讨会的结果可能会纳入NHGRI规划过程,该过程旨在于年底前在主要科学出版物中公布基因组学领域的新愿景。