AI使用图像和组学来解码癌症

发布日期：2019-05-05 浏览次数：156

这是每个癌症患者心中的问题：我有多久了?基因组学家迈克尔斯奈德希望他有答案。目前，所有医生都可以做的是将具有相似癌症的肿块患者分成大组，并猜测他们将与该组中的其他患者具有相同的药物反应或预后。但他们将人分配给这些群体的方法粗略且不完善，并且通常基于人眼球收集的数据。

AI使用图像和组学来解码癌症

斯坦福大学基因组学和个性化医学中心主任斯奈德说：“当病理学家阅读图像时，只有百分之六十的时间是他们同意的。”2013年，他和当时的研究生Kun-Hsing Yu想知道人工智能能否提供更准确的预测。

Yu将组织学图像输入机器学习算法，连同病理学家确定的诊断，训练它以区分肺癌和正常组织，以及两种不同类型的肺癌相互之间。然后，他为这些幻灯片提供了生存数据，让系统了解这些信息与图像的关系。最后，他在新的幻灯片中添加了该模型以前从未见过的内容，并询问了所有重要的长寿问题。

当病理学家阅读图像时，只有百分之六十的时间他们同意。

- 斯坦福大学迈克尔斯奈德

计算机可以预测哪些人的生存时间比这些特定癌症的平均生存时间更短或更长 - 病理学家很难做到这一点。1“它的效果非常好，”Yu说，现在是哈佛医学院的讲师。

但斯奈德和俞认为他们可以做得更多。斯奈德的实验室也在研究，所以他们决定不仅为幻灯片提供计算机，还提供肿瘤转录组。通过这些数据的组合，该模型预测患者的生存率甚至优于单独的图像或转录组，准确率超过80%。2今天，病理学家通常根据组织显微照片的视觉评估做出生存预测，从中评估肿瘤的阶段 - 肿瘤的大小和范围 - 等级，以及它进一步生长和扩散的可能性。但病理学家并不总是同意，肿瘤分级并不总能准确预测生存。

Snyder和Yu并不是唯一一位认识到人工智能能够分析癌症相关数据集的能力的研究人员，这些数据集是关于图像，一些人，以及最近两者的结合。尽管这些工具在到达诊所之前还有很长的路要走，但AI方法可以快速准确诊断，预测哪种治疗方法最适合哪些患者，甚至可以预测生存率。

目前，其中一些应用仍然是“科幻小说”，伦敦癌症研究所的计算生物学家Andrea Sottoriva说，他正致力于人工智能预测癌症进展并选择合适的药物治疗特定肿瘤。“我们的目标是改变这一点。”

INPUT：图像，输出：诊断

在癌症进展过度之前寻找和治疗癌症可能是提高生存率的关键。例如，在宫颈癌方面，早期检测可使五年生存率超过90%。医生可以在子宫颈转化区的前四毫米处煎炸，冷冻或切除癌前细胞，这是宫颈周围最常出现癌症的组织环。然而，一旦癌症转移，存活率在五年内降至56%或更低。

早期治疗在发达国家很常见，在这些国家，妇女定期进行子宫颈抹片检查以检查宫颈细胞是否异常，并检测导致癌症的人乳头瘤病毒。但在发展中国家，这种放映很少见。国家癌症研究所的医学流行病学家Mark Schiffman说，有一个更便宜的测试保健工作者在醋酸中涂抹女性子宫颈，寻找可能表明癌症的明显白色区域 - 但“这种技术是如此不准确”。因此，一些健康女性接受治疗，而其他人可能会遗漏癌前细胞，从而导致需要更多根治治疗的癌症，如化疗，放疗或子宫切除术。

Schiffman和其他研究小组一直在努力寻找一种方法来使醋酸筛选更加准确 - 例如，通过使用白光以外的光谱进行成像。Schiffman的团队在美国和哥斯达黎加积累了数千张来自不同来源的子宫颈图片，包括医疗保健专业人员用放大镜称为阴道镜或手机拍摄的照片。但他即将放弃。“我们不能像其他[测试]一样真正敏感，准确或可重复。”

然后，在2017年底，与比尔和梅琳达盖茨基金会相关的一个名为Global Good的非营利组织达成了协议。该组织希望尝试在Schiffman的图像采集上进行机器学习，以查看计算机是否可以在医生无法提供诊断时进行诊断。

因此，Schiffman与Global Good和其他合作者合作，使用一种称为卷积神经网络的特殊机器学习来分析子宫颈图像。该算法的目标是识别图像中的特征 - 例如，相似或不同的并排像素往往是多少 - 这有助于它获得正确的诊断。一开始，它的准确性并不比偶然。在分析越来越多的图像时，它权衡了这些功能以帮助它找到答案。“这是一个变得更热，更热，更冷，更冷，哦是的，更热，更热的过程。。。直到它尽可能接近，“希夫曼解释说。

该团队开始使用来自9,000多名女性的哥斯达黎加七年来收集的子宫颈图像。Schiffman还积累了这些女性更准确的筛查测试数据，以及18年前有关癌前病变或癌症诊断的后续信息。研究人员使用70%的完整数据集来训练模型，然后仅在其余30%的图像上测试其性能。Schiffman无法相信结果：机器学习区分了健康组织，癌前病变和癌症，91%是机器学习预测准确度的标准衡量标准。相比之下，人类视觉检查的得分仅为69%。3“我从来没有见过这么准确的东西，”希夫曼说。他确信有一些错误。

该小组检查了其工作，并要求国家医学图书馆的合作者独立验证该技术。没有错误：机器真的很擅长识别癌前病变和癌症。有了这个新工具，Schiffman希望开发一种低成本的宫颈癌筛查测试，将手机型相机与基于机器的图像分析相结合。首先，他想在世界各地的成千上万的手机宫颈图像上训练他的算法。我从来没有见过这么准确的东西。

我从来没有见过这么准确的东西。

-Mark Schiffman，国家癌症研究所

他不是唯一一个关注癌症诊断智能手机的人。皮肤病变 - 可能是癌症或良性 - 正好在表面，任何人都可以拍摄。斯坦福大学的研究人员建立了一个包含13万张皮肤病变照片的数据库，并用它来训练卷积神经网络，以区分良性肿块和三种不同类型的恶性病变，准确率至少达到91%。该算法的表现优于大多数21名皮肤科医生要求评估的相同图片。4

创建癌症预测模型的主要挑战是获取足够的高质量数据。当斯坦福大学的团队从斯坦福医学院和互联网上编辑皮肤癌的图像时，角度，变焦和照明都变化多端。研究人员不得不翻译各种语言的标签，然后与皮肤科医生合作，将病变正确分类为2,000多种疾病类别。

当然，大多数癌症需要的不仅仅是智能手机相机才能看到正在发生的事情。观察肿瘤中的个体细胞需要显微镜检查。Yu说，科学家们还想尽可能多地收集关于一个人的临床治疗和反应的信息，以及基因组等分子数据，但这也很难得到。“我们很少能找到患有我们想要的所有数据的患者。”

INPUT：图像+ -Omes，输出：生存

正如Snyder和Yu所发现的那样，-omics数据(如果有的话)可以提供有关特定癌症中涉及的分子途径的信息，这些信息可能有助于识别癌症类型，存活或对治疗的可能反应。在他们最初的基于图像的研究中，研究人员共有2,186个肺组织切片，人类病理学家的疾病分类和患者存活时间。研究人员使用计算机算法从这些图像中提取近10,000个特征，例如细胞形状或大小，用于训练多种机器学习算法。

一种运作良好的方法称为随机森林。它会生成数百个可能的决策树;然后那些“树”在答案上投票，而大多数人都在这里投票。该算法在区分健康组织和两种癌症类型方面的准确度超过75%，并且可以预测谁比单纯基于癌症阶段的模型更准确地进入高或低生存组。1“这超出了目前的病理诊断范围，”Yu说。

在他们的后续研究中，研究人员在538名肺癌患者的组织病理学载玻片上运行他们训练的图像分析算法，然后添加来自同一患者的转录组和蛋白质组，并要求“随机森林”对他们的癌症等级进行投票。。15个基因的表达水平预测癌症等级，准确率为80%。这些基因被证明与DNA复制，细胞周期调控和p53信号传导等过程有关 - 所有这些都已知在癌症生物学中发挥作用。该团队还确定了15种蛋白质 - 而不是由参与细胞发育和癌症信号传导的15种基因编码的蛋白质，这些蛋白质以81%的准确度预测等级。虽然研究人员没有将此与人类表现进行比较，但一项病理学家的研究发现79%的人对肺腺癌的分级达成一致5 -建立机器和人类同样准确。但机器走得更远，显然正在寻找导致癌症进展的特定基因表达因子。

最后，研究人员要求计算机根据基因表达，癌症等级和患者年龄来预测生存。利用所有这些数据，该模型实现了超过80%的准确性，正确地将病例分类为长期和短期幸存者，比人类病理学家，转录组或单独的图像更好。2

在Snyder和Yu的工作的启发下，纽约大学医学院的Aristotelis Tsirigos及其同事也试图将图像与肺癌的遗传学联系起来，使用1,634张健康或癌性肺组织切片。仅基于图像，他们的卷积神经网络能够区分腺癌和鳞状细胞癌，准确率约为97%。然后，研究小组提供了关于肺腺癌中10个最常见突变基因的算法数据，并且计算机学会了从病理学载玻片中预测其中6个突变的存在，准确度范围为73%至86%。6“它运作得很好，”Sottoriva评论说，他没有参与这项工作。“首先，它非常令人兴奋。”

当然，医生和科学家不需要通过成像识别突变;其他测试更直接，更准确，基因测序提供了几乎完美的癌症基因组读数。Tsirigos解释说，这项研究有助于证明遗传学和图像特征以可预测的方式相关。现在，他正在努力将组织病理学和分子信息结合起来预测患者的预后，正如Yu和Snyder的研究小组所做的那样。Tsirigos说，只要研究人员有正确的数据输入，这些方法应适用于任何癌症类型。

INPUT：-Omes，OUTPUT：肿瘤进化

即使没有图像，-Omics数据也可以自己使用。例如，Sottoriva及其同事正在使用基因组学来了解肿瘤的演变。一种肿瘤通常由多种细胞谱系组成，所有细胞谱系均源自相同的原始癌细胞。为了有效治疗癌症，了解这种异质性和肿瘤进化的方式非常重要。如果治疗仅对肿瘤的一部分起作用，癌症就会复发。“这是生死攸关的问题，”爱丁堡大学计算机科学家，肿瘤进化研究合作者Guido Sanguinetti说。

通过对单个肿瘤的多个部分进行取样，研究人员可以推断出癌症的进化途径;它类似于对现代人类基因组进行抽样，以追踪各种群体回到祖先群体。来自不同患者的肿瘤，即使患有相同类型的癌症，也往往具有截然不同的进化树。Sanguinetti，Sottoriva及其同事认为，如果他们能够找到癌症倾向于遵循的共同途径，肿瘤学家就可以利用这些信息对可能患有类似疾病进展的人进行分类，或者对药物进行类似的反应。

为了找到那些常见的进化树，研究人员使用了一种称为转移学习的机器学习形式。Sanguinetti解释说，该算法同时查看患者基因组中的所有树，在它们之间共享信息以找到与整个组相容的解决方案。他们称他们的工具为REVOLVER，用于癌症的重复进化。作为第一次测试，他们发明了虚构的肿瘤进化树。当他们根据这些树木喂养REVOLVER基因组学数据时，它确实吐出了与发明树相匹配的系统发育。

为了以众所周知的癌症进化形式验证该工具，研究人员转向了结直肠癌的恶性转变。这发生在良性腺瘤累积已知驱动基因的突变中：例如，在APC中，然后是KRAS，然后是PIK3CA。研究人员为REVOLVER提供了一组来自9个真实良性腺瘤和10个恶性肿瘤的基因组。果然，该模型绘制了与腺瘤到癌转变相匹配的系统发育树。

然后该小组分析了肿瘤样本，对其进展不太了解。在来自99名非小细胞肺癌患者的基因组中，REVOLVER根据肿瘤累积的突变序列确定了10个潜在的患者群。其中一些群体中的人群存活时间不到150天，而置于其他群集中的群体存活时间更长，表明这些类别具有预后价值。同样，REVOLVER在50个乳腺癌肿瘤中发现了6个簇，簇之间的存活水平不同。7“我们没想到会找到团体，真的，”Sottoriva说。“这些结果告诉我们癌症的进展可以预测。”

Sottoriva说，医学运行的是那种可预测的模式。AI是一种强大的工具，可帮助识别临床相关的模式。此外，通过从模型的输入中选择性地消除某些数据，并查看其准确性是否下降，生物信息学家开始弄清楚计算机用来区分这些模式的特征，Tsirigos说。

目前用于癌症研究的AI应用仅仅是个开始。未来的算法不仅可以包含一些物体和图像，还可以包含有关治疗结果，进展以及科学家可以获得的任何其他信息的其他数据。

“在一天结束时，”斯奈德说，“在处理像癌症这样的复杂疾病时，你需要一些信息。”