保护基因组研究中的机密性

发布日期：2019-04-19 浏览次数：128

全基因组关联研究寻找特定遗传变异与疾病发病率之间的联系，是许多现代生物医学研究的基础。但基因组信息数据库会带来隐私风险。从人们的原始基因组数据中，可以推断出他们的姓氏，甚至可能是他们脸上的形状。许多人不愿意将他们的基因组数据贡献给生物医学研究项目，并且在决定是否授予研究人员访问请求之前，托管大型基因组数据库的组织可能会进行长达数月的审查。

保护基因组研究中的机密性

在今天出现在Nature Biotechnology上的一篇论文中，来自麻省理工学院和斯坦福大学的研究人员提出了一个新的系统，用于保护那些将基因组数据贡献给大规模生物医学研究的人的隐私。早期的加密方法计算密集程度太高，以至于超过几千个基因组变得非常耗时，新系统承诺为多达一百万个基因组进行的研究提供有效的隐私保护。

“作为生物医学研究人员，我们对缺乏数据和访问控制的存储库感到沮丧，”麻省理工学院西蒙斯数学教授和该论文的相应作者Bonnie Berger说。“我们期待一个拥有大量分布式基因组数据的未来，私人拥有自己的个人基因组，研究所和医院都建立自己的私人基因组数据库。我们的工作提供了一个汇集大量数据的路线图。基因组数据，以促进科学进步。“

论文的第一作者是麻省理工学院电子工程和计算机科学研究生Hyunghoon Cho;他和伯杰加入了斯坦福大学计算机科学研究生David Wu。

系统的核心是一种称为秘密共享的技术，它在多个服务器之间划分敏感数据。例如，为了存储数字x，秘密共享系统可以将随机数r发送到一个服务器而将xr发送到另一个服务器。

两个服务器都不能独立地推断x。但总的来说，他们仍然可以执行有用的操作。如果一个服务器存储了一堆r并将它们加在一起，而另一个服务器将所有相应的(xr)加起来，那么共享结果并将它们加在一起将产生所有x的总和。但是，两个服务器都不会观察到任何一个x的值。

当然，如果两个服务器都被黑客攻击，攻击者可以重建所有的x。但只要一台服务器值得信赖，系统就是安全的。此外，该原则推广到多个服务器。如果数据在四个服务器之间分配，则攻击者必须渗透所有四个服务器;黑客攻击任何三个都不足以提取任何数据。

然而，在这种情况下，乘法比加法更复杂。乘以两个x需要生成三个随机数- 在密码学家唐纳德比弗之后，除了r之外，被称为Beaver三元组。反过来，这三个数字必须在使用秘密共享的服务器之间进行划分。在乘法之前将这些数字的秘密共享分量添加到x和r中会产生代数表达式，其中可以滤除所有添加的随机性，仅留下两个x的乘积。

全基因组关联研究涉及一个庞大的表格或矩阵，它将数据库中的基因组与单核苷酸多态性的SNP遗传变异位置进行对比。SNP通常约为一百万，因此如果数据库包含一百万个基因组，结果将是一百万个百万的矩阵。

寻找有用的疾病相关性需要过滤误导性相关性，这一过程称为人口分层校正。例如，东亚人经常乳糖不耐症，但他们也往往比北欧人短。对乳糖不耐受的遗传相关性进行的初步调查可能最终会确定那些高度不足的人。

群体分层校正通常依赖于称为主成分分析的算法，其需要涉及整个SNP对基因组矩阵的重复乘法。如果矩阵中的每个条目都需要为这些乘法中的每一个都使用其自己的一组Beaver三元组，那么分析一百万个基因组将非常耗时。

但Cho，Berger和Wu找到了一种构造乘法序列的方法，这样许多Beaver三元组只能计算一次并重复使用，从而大大降低了计算的复杂性。

他们还使用其他几种技术来加速他们的系统。由于Beaver三元组必须秘密共享，因此Beaver三元组中的每个数字都有一个相关的随机数：在双服务器方案中，一个服务器将获得随机数，另一个服务器将获得Beaver数减去随机数。

在Cho，Berger和Wu的系统中，有一个服务器致力于生成Beaver三元组并秘密共享它们。但是，虽然需要将海狸数量减去相关的随机数传输到适当的服务器，但它不需要自己传输随机数。相反，它只是共享用于“种子”称为伪随机数生成器的算法的数字。然后，接收方服务器可以自己生成随机数，从而节省了大量的通信带宽。

最后，当执行所有乘法运算时，系统实际上并没有使用整个百万分之一的矩阵。相反，它使用称为随机投影的近似技术来降低矩阵，同时保持最终计算结果的准确性。

基于这些技术，Cho，Berger和Wu的系统准确地再现了三个已发表的涉及23,000个个体基因组的全基因组关联研究。这些分析的结果表明该系统应该有效地扩展到一百万个基因组。