本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点。
在过去的 10 年里,商业人工智能享受了我们在亚马逊所说的飞轮效应:客户与人工智能系统的交互产生数据;随着数据的增加,机器学习算法表现更好,从而带来更好的客户体验;更好的客户体验推动了更多的使用和参与,反过来又产生了更多的数据。
这些数据主要通过三种方式用于训练机器学习系统。第一种是监督学习,其中训练数据是手动标记的(例如,单词的词性或图像中物体的名称),系统学习将标签应用于未标记的数据。 其变体是弱监督学习,它使用容易获得但不精确的标签来实现大规模机器学习。 例如,如果网站访问者执行搜索,她点击的链接表明哪些搜索结果应该位于列表的顶部; 这种隐含信息可用于自动标记数据。
使用完全未标记的数据进行训练称为无监督学习。 其中,最常见的方法是根据结构特征将数据聚类在一起;聚类本身定义了分类类别。 最后,半监督学习利用少量标记的训练数据,从更大的未标记训练数据存储中提取信息。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业: 订阅。 通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和思想的具有影响力的故事的未来。
在最近的人工智能研究中,监督学习占主导地位。 但是今天,商业人工智能系统产生的客户交互远远超过我们可以手动标记的数量。 继续保持商业人工智能迄今为止实现的快速改进速度的唯一方法是,将我们自己重新定位到半监督、弱监督和无监督学习。 我们的系统需要学习如何自我改进。
半监督学习最常见的方法是自训练,其中在少量标记数据上训练的机器学习系统本身将标签应用于更大的未标记数据集。 因为机器学习系统是统计性的,所以它们的输出具有相关的置信度分数。 系统的输出根据置信度分数进行排序,落在正确置信度窗口内的输出用于进一步训练系统。 换句话说,系统在它自己标记的数据上重新训练。
通常,自训练在具有高置信度训练示例时效果最佳。 但在某些情况下,亚马逊研究人员发现,较低置信度的示例可以提供更大的性能改进,因为它们更可能捕获系统尚未学习的细微差别。
另一种利用少量标记数据的方法是将它们与未标记数据放在一起,并将某种无监督聚类算法应用于结果。 例如,句子可以自动嵌入到高维空间中,在其中根据其组成词与其它词共同出现的频率进行分组。 然后,算法可以将标记句子的标签推广到同一集群中的未标记句子,从而极大地扩展了自然语言理解系统可用的训练示例数量。
依赖机器学习进行实时数据分类的公司还有另一种半监督训练选项。 那就是使用标记数据来训练一个功能强大但速度慢得不切实际的神经网络,然后使用该网络为更精简、更高效的实时网络标记训练数据。 亚马逊研究人员正在各个业务部门中使用这种方法。
通常,人工智能公司还可以使用客户反馈来自动标记数据。 例如,Amazon.com 上与产品评论相关的数字(星级)评分可以为弱监督机器学习系统提供自动数据标签,该系统试图从语言线索中推断客户情绪。
Amazon Alexa 语音服务的客户通常不会对 Alexa 对单个请求的响应进行评分,但他们与 Alexa 的交互确实提供了有用的隐含信号。 如果 Alexa 对请求的初始响应不令人满意,客户可能会中断响应并重新措辞请求。 如果允许对重新措辞的请求的响应播放完毕,则这是一个强烈的信号,表明第一个请求应该引发相同的响应。
Alexa 每月自动分析大量此类重新措辞的请求,学习如何重写其中最常见的请求。 这就是为什么,例如,如果您对 Alexa 说“播放 Magic Dragons 的 ‘Radioactive’”,她会回答“正在播放 Imagine Dragons 的 ‘Radioactive’”。
目前,Alexa 的重写程序是通用的:任何请求 Magic Dragons 音乐的人都有相同的可能性收到 Imagine Dragons 的音乐。 但底层技术可以进行调整,以便为客户提供个性化的查询响应。 例如,在许多许多请求 Imagine Dragons 音乐的客户中,可能有一些人实际上是在寻找 Magic Dragons,即前 Ipswich 斯普雷德鹰酒吧周三晚间的驻场乐队。
亚马逊研究人员正在探索许多其他用于进行无监督学习的技术,从监控云服务器的普通运行参数以识别异常;到使用 Amazon.com 产品层级结构来建立客户产品搜索之间的联系;到通过将文本自动翻译成具有现有机器学习系统的语言,使用这些系统标记文本,然后将标记的文本自动翻译回目标语言,从而在新的语言中引导自然语言理解系统。
商业人工智能的承诺是大规模机器学习的承诺。 但这不仅仅是将更多数据投入到现有问题中。 越来越重要的是,它还意味着找到巧妙的方法来有效地使用这些数据,而无需人工干预。