大多数孩子在两岁时,可以理解大约 300 个词。到四岁时,平均词汇量已膨胀到超过 1,000 个词。我们人类快速掌握词语的惊人能力尚未完全被理解。一些认知科学家和语言学家推测,人们天生具有内在的期望和逻辑约束,使这成为可能。然而,现在的机器学习研究表明,预先设定的假设对于从最少的数据中快速掌握词义来说并非必要。
一个由认知科学家和计算机科学家组成的团队成功地训练了一个基本的人工智能模型,仅使用 61 小时的自然场景录像和声音,就将图像与词语匹配起来——这些录像和声音是 2013 年和 2014 年从一个名叫萨姆的孩子的第一视角拍摄的。这项研究于周四发表在《科学》杂志上,使用了萨姆在 6 至 25 个月大时断断续续佩戴的头戴式摄像头录制的视频和转录音频。虽然这只是孩子生活的一小部分,但显然足以促使人工智能弄清楚某些名词的含义。
研究结果表明,语言习得的方法可能比之前认为的更简单。斯基德莫尔学院心理学副教授 杰西卡·沙利文 说,也许孩子们“不需要定制的、花哨的、特定于语言的机制”来有效地掌握词义。沙利文研究语言发展,她没有参与这项新的研究,但她和其他人制作了这项工作中使用的 视频数据集。“这是一项非常出色的研究,”她说,因为它提供的证据表明,来自孩子世界观的简单信息足以启动模式识别和词语理解。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保关于塑造我们今天世界的发现和想法的有影响力的故事的未来。
这项新研究还表明,机器有可能以类似于人类的方式学习。大型语言模型,如 GPT-4(ChatGPT 背后人工智能的最新版本),是在海量数据上训练的,这些数据可能包括数十亿甚至数万亿的词语组合。该论文的主要作者、纽约大学计算认知研究员 Wai Keen Vong 说,人类仅需少几个数量级的信息就能做到这一点。有了正确类型的数据,机器和人类学习之间的差距可能会大大缩小。
该研究的资深作者、纽约大学心理学和数据科学副教授布伦丹·莱克也表示赞同。“今天的模型不需要像它们所获得的那么多输入,就能做出有意义的概括,”莱克说。“我们首次证明,你可以训练人工智能模型通过一个孩子的眼睛和耳朵来学习词语。”
莱克、Vong 和他们的同事从一个通用的多模态机器学习模型开始,该模型由一个视觉编码器和一个文本编码器组成。同步的神经网络共同将图像和书面语言翻译到同一数学空间,供人工智能解释。研究人员将 61 小时的萨姆头戴式摄像头录像以静止帧的形式输入到他们的模型中,并配以随附音频的转录文本。由于摄像头只是记录了萨姆所见所闻,因此数据集看起来很混乱且有些随意。它包含看护人直接与孩子说话的实例,以及其他人之间的背景对话。音频片段通常没有直接描述场景或物体。尽管如此,萨姆和人工智能模型都设法收集了词义。
在多项测试中,该模型正确地将许多词语与相应的图像匹配起来。它也接近另外两个人工智能模型的准确性基准,这两个模型都接受了更多语言数据的训练。在一项评估中,科学家们向他们的基本模型展示了来自训练集的四张图像批次,并要求它指出哪一张包含特定物体,例如球。人工智能的准确率约为 62%(远高于人工智能随机猜测的 25% 准确率)。研究人员还使用来自萨姆记录库的新物体图像测试了他们的模型——该模型仍然能够正确识别许多这些物体,这证明了它概括所学内容的能力。“我们对此感到非常惊讶,”Vong 说。
这项研究建立在过去机器学习和人类认知的研究基础上。印第安纳大学布卢明顿分校心理学和脑科学教授 琳达·史密斯 说,以前的人工智能研究使用来自多个孩子的数据来训练模型,过去的儿童发展心理学实验评估了单个孩子的经历。史密斯说,虽然萨姆的数据集也已在其他研究中使用过,但这项新工作是“对科学的真正贡献”。
沙利文表示赞同。“我曾是认为学习语言的问题无限复杂,并且在没有一些特定的机制内置于你的大脑中的情况下,不可能学习一个词的含义的人之一,”她说。但这项研究已经改变了她的看法。“现在我看到,至少在一种情况下,这是可能的。”
然而,这项新研究的揭示仍然存在重要的局限性。首先,科学家们承认,他们的发现并不能证明孩子们是如何获得词语的;这项研究仅表明机器可以做到什么——以及人类也可能做到什么。史密斯说,虽然“这是一个优雅的演示”,但这不足以证明孩子学习语言时发生了什么。她补充说,除了简单的模式识别之外,其他因素仍然可能有助于人类学习。虽然该模型设法掌握了数十个词语,但仍有许多词语它无法理解。例如,它非常擅长正确识别“沙子”和“汽车”,但在识别“手”和“房间”方面与随机猜测相似或更差。莱克指出,这些怪癖与儿童学习最快的词语类型不符,这表明该模型具有非人类的特性。
此外,该研究仅侧重于识别物理物体的名词。蒙特利尔人工智能研究所 Mila 的计算语言学研究员伊娃·波特兰斯说,人类的语言学习比这复杂得多。语言还涉及动词、结构和抽象概念,孩子们从自己的经验中很早就开始掌握这些概念。这项研究并未证明人工智能可以使用研究模型训练的有限数据做到同样的事情。
波特兰斯说,尽管如此,这仍然是朝着更深入地理解我们自己思想迈出的一步——这最终可以帮助我们改进人类教育。她指出,人工智能研究不必仅仅是为了最大限度地提高机器人的能力和企业利润;它还可以为长期以来悬而未决的关于我们自身的问题带来清晰的认识。“我们可以以一种好的方式使用这些模型:造福科学和社会,”波特兰斯补充道。