在美洲,可能藏有寨卡病毒并且可能传播病毒的灵长类物种很常见,很多,而且往往生活在人们附近。因此,今天发表在Epidemics上的一项新研究报告。研究结果基于由卡里生态系统研究所和IBM研究院的研究人员通过其社会良好科学计划的研究人员协作开发的创新模型。
第一作者,Cary研究所的疾病生态学家Barbara Han解释说:“在对疾病系统进行建模时,数据差距可能会削弱我们预测人类面临风险的能力。在全球范围内,只有两种灵长类物种被确认为寨卡病毒阳性。我们是感兴趣的是两种建模技术的结合如何帮助我们克服有关灵长类生物学和生态学的有限数据 - 目标是确定监测重点。“
最近在美洲发生的寨卡流行病是近代爆发的最大疫情之一,感染了50多万人。像其他蚊子传播的黄病毒一样,Zika在野外传播。在蚊子以灵长类动物和人类为食的地区,灵长类动物可以作为溢出感染的疾病库。
通过分析黄病毒和已知携带它们的灵长类动物的数据,并将这些特征与全球发生的364种灵长类动物进行比较,该模型确定了已知的黄病毒携带者,其准确度为82%,并为可能携带寨卡病毒的其他灵长类动物分配风险评分。最终产品包括一个交互式地图,该地图考虑了灵长类动物的地理范围,以识别人们最易受寨卡溢出风险影响的热点。
Zika风险得分超过90%的美洲灵长类物种包括:簇绒卷尾猴(Cebus apella),委内瑞拉红吼(Alouatta seniculus)和白面卷尾猴(Cebus capucinus) - 适合居住在发达地区。同样在名单上:白色卷尾猴(Cebus albifrons),通常作为宠物饲养并被捕获用于实时交易,以及蜘蛛猴(Saimiri boliviensis),它们在其部分范围内被捕杀用于食用森林猎物。
“这些物种在地理上分布广泛,人口众多,居住在人口中心附近。它们是臭名昭着的农作物袭击者。它们被作为宠物饲养。人们将它们作为旅游景点展示在城市中,并将它们捕杀到丛林肉中。就疾病溢出风险而言这是一个非常令人震惊的结果,“共同作者Subho Majumdar说。
更令人担忧的是:最有可能传播寨卡的蚊子种类通常在人类附近发现,并且能够在自然和改变的景观中茁壮成长。
该模型
为了克服数据差距,该团队结合了两个统计工具 - 多重插补和贝叶斯多标签机器学习 - 为灵长类动物分配风险评分,表明其具有寨卡积极性的潜力。
病原体
评估了六种由蚊子传播的疾病的特征:黄热病,登革热,日本脑炎,圣路易斯脑炎,寨卡病毒和西尼罗河病毒。其中三个已知灵长类动物水库。
灵长类动物
将18种灵长类动物的生物学和生态学特性与任何蚊媒黄病毒检测呈阳性,并与全球364种灵长类动物的特征进行了比较。评估了33个特征 - 包括代谢率,妊娠期,产仔数和行为等。特征被加权以预测寨卡积极性。
Han解释说:“像所有病原体一样,寨卡病毒对动物寄主需要的东西有独特的要求。为了确定哪些物种可以藏寨寨卡,我们需要知道这些特性是什么,哪些物种具有这些特性,以及这些物种中的哪一个可以将病原体传播给人类。这是很多信息,其中很多都是未知的。“
使用称为乘法推算链式方程(MICE)的统计方法来克服数据限制。MICE将计算机算法设置为搜索有机体特征的数据集以绘制具有相似或相关特征的生物之间的连接的任务。当算法遇到丢失的数据条目时,它使用这些连接来推断缺失的信息并填充数据集中的“空白”。
机器学习应用于这个“填充”数据集,以预测最有可能携带寨卡病毒的灵长类物种。该模型通过结合黄病毒感染史和生物学特征来预测每种物种的风险评分,以预测寨卡病毒阳性的可能性。
这种方法可以帮助改善寨卡以外的其他疾病系统的预测模型。来自IBM Research的资深作者Kush Varshney解释说:“数据差距已经成为现实,特别是在源自野生动物宿主的传染病中。像我们开发的模型可以克服其中的一些差距并帮助确定微调监视的物种,预测溢出事件,并帮助指导公共卫生界的工作。“
随着Varshney补充说:“在小型,不完整和嘈杂的数据集上进行机器学习以支持关键决策制定是许多行业和部门共同面临的挑战。我们肯定会利用从该项目中获得的经验来处理许多不同的应用领域。”
Han总结道:“这项研究是通过更广泛的科学界提供的创新实现的。我们依靠数百名野外研究人员收集的灵长类动物和病原体数据,我们在这项研究中已经适应的基础机器学习和插补方法已经存在。 IBM Research在数学和编码方面占据了很大的份额。这是一次非常成功的跨学科合作 - 如果我们想要找到解决复杂问题的新解决方案,我们需要更多的合作。