已经绘制了人类基因组图谱,但大多数人的基因组还没有 - 至少现在还没有。当映射单个基因组时,世界将面临一个问题:世界上的计算机系统中没有足够的空间来存储这些数据。Petray Tikvah的Geneformics公司首席执行官Rafael Feitelberg表示,基因组数据的大小只是“ 基因组学在世界上无处不在的主要抑制因素之一”。经过测序的人类基因组可能是200到300千兆字节的原始数据,而分析的基因组可能占用整个TB的磁盘空间。“如果你想创建基因库,那么数据的大小就会非常非常严重。”
他表示,Geneformics“致力于提供工具和基础设施,使基因组学数据通过压缩获得,”Feitelberg说。
绘制人类基因组的关键不仅仅是知道基因如何相互作用,而是能够将这种映射应用于个体。例如,通过映射的基因组,个性化医疗的时代将蓬勃发展。医生将能够为患者开发定制药物,确保药物专门用于处理问题而不会产生任何副作用。
Geneformics现在是其全球最大基因测序组织之一,位于马萨诸塞州的测序公司WuXi NextCode和悉尼Garvan医学研究所的客户。
数据压缩中的一个问题是当它被解压缩以再次起作用时会发生什么。“数据压缩应该是以无损和透明的方式真正隐藏它们的东西,”Feitelberg说。“从压缩和解决方案的角度来看,这意味着我们能够以高速解压缩数据并实际以无损形式将其流回所有这些应用程序。它与原始的,未压缩的相同文件。”
基于Weizmann计算生物学家Eran Segal的数据压缩工作,Geneformics从以色列雷霍沃特的Weizmann科学研究所发展而来,他于2014年与职业技术专家和现任Geneformics首席技术官Arik Keshet共同创办了该公司。
资金来自包括Geneformics董事长Dov Moran在内的投资者,他创造了DiskOnKey,被广泛称为第一款USB闪存盘。据Crunchbase称,莫兰和两家私募股权公司已向Geneformics投入了约285万美元。该公司最近发布了Geneformics D,这是其首个纯粹基于云的产品。
CTO Keshet说,它是如何运作的,是一个商业秘密。他说:“这是一个年轻的行业,到目前为止,确实没有压缩标准。你在基因组学方面没有相应的JPEG或MPEG”。“最终,当这个空间成熟时,我们期望形成标准。届时,我们将拥有技术和[知识产权]以及市场影响力。”
Feitelberg表示,该公司将会说,数据节省可能非常重要。“通过压缩,我们将占用空间减少高达90%。此外,通过在基因组数据的粒度级别进行智能分层,我们甚至可以更多地增加这些节省,”他说。
通过与拥有世界上最大的基因组数据集之一的Garvan研究所的合作,该公司正在走向国际成功。“能够为他们建立一个基础设施是一个非常富有成效的合作伙伴关系,因此他们将一如既往地成长,他们将始终以压缩和有效的方式成长,”Feitelberg说。“我们的观点是研究人员和生物信息学家不应该因为数据压缩而改变他们所做的分析,”他说。