当人们听到“人工智能”时,许多人会想到“大数据”。这是有原因的:过去十年中一些最突出的AI突破都依赖于庞大的数据集。图像分类在2010年代取得了巨大的进步,这要归功于ImageNet的开发,这是一个包含数百万张手工分类成数千个类别的数据集。最近,GPT-3,一种使用深度学习生成类人文本的语言模型,受益于对数千亿字的在线文本的训练。因此,看到AI在人们的普遍想象中与“大数据”紧密相连也就不足为奇了。但是,AI不仅仅关乎大型数据集,“小数据”方法的研究在过去十年中得到了广泛发展——所谓的迁移学习就是一个特别有希望的例子。
迁移学习也称为“微调”,在您对感兴趣的任务的数据很少,但对相关问题的大量数据时非常有用。它的工作方式是,您首先使用大数据集训练模型,然后使用与您的特定问题相关的小数据集稍微重新训练。例如,通过从ImageNet分类器开始,印度班加罗尔的研究人员使用迁移学习训练了一个模型,仅使用45个训练示例即可在超声图像中定位肾脏。同样,一个研究团队致力于德语语音识别表明,他们可以通过从在较大数据集上训练的英语语音模型开始,然后使用迁移学习针对较小的德语音频数据集调整该模型来改进他们的结果。
过去10年中,迁移学习方法的研究取得了令人瞩目的增长。在
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。
乔治城大学安全与新兴技术中心 (CSET) 的新报告中,我们审查了“小数据”方法科学研究的当前和预计进展,并将其分为五个大致类别:迁移学习、数据标注、人工数据生成、贝叶斯方法和强化学习。我们的分析发现,迁移学习作为一个类别脱颖而出,自 2010 年以来,该类别的研究平均增长最为持续和最高。这种增长甚至超过了规模更大、更成熟的强化学习领域,而强化学习近年来已引起广泛关注。
此外,预计迁移学习研究在不久的将来将继续增长。使用三年增长预测模型,我们的分析估计,在我们考虑的小数据类别中,到 2023 年,迁移学习方法的研究增长速度将最快。事实上,迁移学习的增长率预计将远高于整个人工智能研究的增长率。这意味着迁移学习可能变得更易于使用——因此也更广泛地使用——从现在开始。
诸如迁移学习之类的小数据方法比数据密集型方法具有许多优势。通过使用较少的数据即可实现 AI,它们可以促进在几乎没有或没有数据的领域取得进展,例如在预测相对罕见的自然灾害或预测没有数字健康记录的人群的疾病风险方面。一些分析师认为,到目前为止,我们已将 AI 更成功地应用于数据最容易获得的问题。在这种背景下,随着越来越多的组织寻求多样化 AI 应用领域并涉足以前未开发的领域,像迁移学习这样的方法将变得越来越重要。
思考迁移学习价值的另一种方式是从泛化的角度来看。AI 使用中反复出现的挑战是模型需要“泛化”到其训练数据之外——也就是说,对于比专门训练的“问题”(输入)更广泛的“问题”(输入)给出好的“答案”(输出)。由于迁移学习模型通过将知识从一项任务转移到另一项任务来工作,因此即使只有有限的数据可用,它们也非常有助于提高新任务中的泛化能力。
此外,通过使用预训练模型,迁移学习可以加快训练时间,并且还可以减少训练算法所需的计算资源量。考虑到训练一个大型神经网络的过程需要大量能源,并且可能排放相当于一辆普通美国汽车终生碳排放量五倍的碳排放量,这种效率意义重大。
当然,在某些情况下,将预训练模型用于新任务的效果比其他情况更好。如果模型中的初始问题和目标问题不够相似,则很难有效地使用迁移学习。这对于某些领域来说是有问题的,例如医学影像,因为某些医学任务在数据大小、特征和任务规范方面与自然图像数据集(如 ImageNet)存在根本差异。研究人员仍在学习模型之间如何传输有用的信息,以及不同的模型设计选择如何阻碍或促进成功的传输和微调。希望通过学术研究和实践经验在这些问题上取得持续进展,将有助于随着时间的推移更广泛地使用迁移学习。
诸如吴恩达之类的 AI 专家强调了迁移学习的重要性,甚至表示该方法将成为行业中机器学习成功的下一个驱动力。已经出现了一些成功应用的早期迹象。迁移学习已应用于癌症亚型发现、视频游戏、垃圾邮件过滤等等。
尽管研究激增,但迁移学习的知名度相对较低。虽然许多机器学习专家和数据科学家可能在此刻对此很熟悉,但诸如迁移学习之类的技术的存在似乎尚未引起更广泛的政策制定者和在人工智能资助和采用方面做出重要决定的商业领袖的关注。
通过承认像迁移学习这样的小数据技术的成功——并分配资源来支持它们的广泛使用——我们可以帮助克服一些关于数据在 AI 中的作用的普遍误解,并在新的方向上促进创新。