本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
为您的iPhone上的Siri和面部识别提供支持的相同技术也已在医学领域取得成功。通过自动分析乳腺肿瘤活检的显微图像,人工智能可能有一天能够帮助指导癌症治疗。
这种特定类型的人工智能被称为深度学习,并且在过去几年中已成为我们日常生活的一部分。其应用不断扩展到语言翻译和自动驾驶汽车等领域,这得益于海量数据存储库。虽然深度学习最初应用于识别照片中的人物、汽车和其他日常物品,但最近已被用于研究癌症。我们在北卡罗来纳大学教堂山分校的计算机科学家和癌症研究人员团队使用它来分析来自肿瘤组织显微图像的乳腺癌类型。
力量与局限性
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
深度学习是一种通过识别模式来学习图像或其他数据的新表示方法。也称为神经网络,它由多个特征层组成,其中更高层次的概念建立在较低层次的概念之上。沿着层次结构向上,特征的规模和复杂性都在增加。与人类视觉处理类似,低层检测诸如边缘之类的小结构。中间层捕获越来越复杂的属性,如纹理和形状。网络的顶层能够表示诸如人之类的对象。
学习这些模式使计算机能够做出预测。在包含内容标签的大型数据集上进行训练后,该模型可以预测其未训练的新数据上的这些标签。例如,给定人物图像以及每个人脸的位置,该模型可以在新照片中找到人脸。
成功训练神经网络的关键因素是大量的标记数据。许多最先进的模型都使用数千万或数亿个标记图像进行训练。最常用的公共数据集是ImageNet,它具有1,000个对象和场景类别,这些类别是从Flickr等照片共享网站收集的。然而,在医学领域,患者样本稀缺,并且这些样本的专家注释非常昂贵。在小型数据集上训练大型模型只会导致过拟合;该模型在训练数据上表现良好,但在预测新呈现的数据时会给出较差的结果。

ImageNet数据集由1,000种不同对象和场景的照片组成。图片来源:Pixabay
新领域
然而,有一种快捷方式可以将如此庞大而强大的模型应用于小型数据集:迁移学习。已在数百万张对象和场景照片上训练过的同一网络可以适应许多其他应用,包括组织的显微图像。该网络计算新图像集上的表示,并训练新模型以对每个图像进行预测。
深度迁移学习之所以有效,是因为图像的许多元素在不同领域之间是相同的。网络的低层捕获诸如边缘之类的小结构,但不足以区分复杂的图像类别。顶层非常特定于它们训练的图像,捕获诸如面部和自行车轮胎之类的东西,但在不同的图像集(例如医学图像)上效果不佳。然而,中间层足够强大且通用,非常适合新应用。
预测乳腺癌亚型
作为一名计算机科学家,我致力于将深度学习的这些令人兴奋的进步带入乳腺癌研究的进一步发展。我们的团队研究癌症亚型:根据肿瘤细胞的某些特征将一种癌症类型划分为更小的组。我计算了乳腺肿瘤显微图像上的神经网络特征,并训练模型来预测不同的特性,包括侵袭性和分子亚型。我的模型成功地预测了独立测试集上的这些特性,并且可能有一天能够帮助指导治疗决策。
我们的团队使用了一个乳腺肿瘤组织显微图像数据集。每个组织样本都用一对称为苏木精和伊红(或H&E)的染料染色,以将不同的组织结构变成粉红色或蓝色。病理学家审查此类图像以检测癌症并指定其侵袭性程度,称为分级。来自每个肿瘤的其他样本以不同的方式处理,以确定分子特性,这些特性可以帮助识别个体肿瘤的弱点,以便选择合适的疗法。
我的模型预测了两种分子特性和分级。然后,我们将我的深度学习预测值与通过其他技术评估的值进行了比较。以前已知两种分子特性都无法从H&E中预测。
虽然我们的分级测量复制了病理学家,但其他两种分级测量提供了新的见解,并可能为资源有限的实验室节省成本。评估分子亚型的标准方法成本高昂,但在确定患者的最佳治疗方案中至关重要。我们基于图像的方法可能有一天会提供替代方案。
乳腺肿瘤的粉红色和蓝色H&E图像与狗、人和汽车的照片截然不同,但相同的方法仍然适用,因为存在相似的形状和纹理。您发布在Flickr上并成为ImageNet数据集一部分的那些度假照片对于训练我们用于研究乳腺癌的模型至关重要。迁移学习使深度学习能够应用于许多新任务——从癌症到气候变化——并继续改善您与技术的日常互动。