视觉之物:新型人工智能系统可以想象它未曾见过的景象

科学家开发出机器学习技术,可以自学从未观察到的角度可视化三维场景

一位艺术家对人工智能系统的诠释,该系统能够从尚未观察到的视角“可视化”场景中的物体——这一进展在题为“神经场景表示和渲染”的论文中详细介绍,该论文于 6 月 15 日发表在《科学》杂志上。  

“在我们研究人工智能之前,为什么不先对自然愚蠢做些什么呢?” 计算机科学家史蒂夫·波利亚克曾开玩笑说。后者可能是一个很高的要求。但人工智能,似乎刚刚为机器人迈出了一小步。

发表在 6 月 14 日《科学》杂志上的新研究报告称,科学家首次开发出一种机器学习系统,该系统可以从多个角度观察特定场景,并预测从新的、前所未有的角度观察时会是什么样子。随着进一步的发展,这项技术可能会在工业和制造环境中催生更自主的机器人。

就像我们可以从客厅的一侧扫描朋友的公寓,并对从另一侧看起来的样子有一个很好的概念一样,这项新技术可以对三维计算机图像中的场景做到这一点。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。


由人工智能公司 DeepMind(于 2014 年被谷歌收购)的研究人员设计的这个新系统可以“学习”空间的 3D 布局,而无需任何人工监督。这种生成查询网络(Generative Query Network),或 GQN——正如其开发者所称,首先通过观察包含不同光照和物体排列的简单计算机生成场景进行训练。然后,它可以接触到新环境的多个图像,并准确预测从其中的任何角度看起来的样子。与人脑的超连接感知区域不同,该系统分别学习和处理形状、大小和颜色等属性,然后将数据整合到空间的连贯“视图”中。“人类和其他动物对物体的视觉世界有丰富的理解,包括物体、几何形状、光照等等,”新论文的主要作者、DeepMind 的研究科学家 Ali Eslami 说。“这项研究背后的动机是了解我们如何构建计算机系统,使其学会以类似的方式解释视觉世界。”

近年来,机器学习作为一个领域取得了飞速发展。GQN 技术建立在许多过去的系统之上,包括许多基于受人脑启发的神经网络的“深度学习”模型。深度学习是一种机器学习形式,其中计算机通过接触图像或其他数据来“学习”,例如,检测使物体成为猫或勺子的各种特征。它在观察到许多标记场景以识别这些物体的图像后才这样做。GQN 利用深度学习来构建一种计算机化的“视觉”,使其能够浏览复杂的场景。与其他许多系统相比,它的独特之处在于它能够完全通过观察并在没有人为监督的情况下自主学习。它分析未标记的物体以及物体在场景中所处的空间,然后将其学习成果应用于另一张图像。“这使 GQN 具有更高的灵活性,并使我们无需为世界上的每个物体创建大量的模型,”Eslami 说。换句话说,它可以根据先前接触到的不同物体,使用形状和颜色等特征来识别新物体。

目前,新系统仅被设计用于处理计算机生成的场景,而不是控制机器人在现实世界中的动作。但 Eslami 和他的同事计划继续开发具有更复杂几何形状和情况的 GQN,希望有一天完全自主的机器人对场景的理解能够适用于任何数量的工业应用。从理论上讲,机器人可以在一项任务上接受培训,然后在另一项任务上重新部署,而无需进行大量的重新编程。GQN 可以降低制造成本,提高生产速度,并简化机器人组装几乎任何东西的过程。“这项工作既有趣又令人兴奋,”麻省理工学院认知科学与计算教授 Joshua Tenenbaum 说,他还表示,这项技术在投入实际使用之前还有很长的路要走。“在我看来,这项研究离直接应用还很远,”他指出。“从纯粹的实用工程角度来看,它解决的问题目前可以通过其他方法更好地解决,而这些方法对纯粹的基于学习的方法的依赖性较低。”

未参与该项目的 Tenenbaum 补充说:“从长远来看,这项工作可能有助于推进机器人感知和控制的水平,从而产生比当今人工智能技术更具适应性和自主性的系统。”

随着人工智能发展到机器承担先前人类独有的品质的程度,当然也存在反乌托邦式的担忧:即我们将培养我们自己的灭亡,而灭亡将由更聪明、更强大的网络生物群体造成,无论它们采取何种形式。正如德国哲学家托马斯·梅辛格多年来一直告诫的那样,在机器中创造某些精神状态可能会导致这些机器体验痛苦和折磨。

Tenenbaum 并不担心。“在实际可预见的未来,任何对开发比我们‘更聪明’的计算机的恐惧都是没有根据的,”他说。“这里介绍的系统比以前的逆向图形系统有了显著的进步,但它远未达到即使是幼儿也拥有的感知能力。它还需要大量的训练数据,而儿童不需要,这表明它的学习能力远不如人类。”

计算机科学的奠基人艾伦·图灵曾说过,只有当计算机能够欺骗一个人相信它是人类时,才能称其为智能计算机。图灵测试的任何真正成功都需要一台表现出通用智能的机器——一台可以做微积分、系鞋带和做晚餐的机器,所有这些都是人类所做的事情——这一目标目前仍然只是未来主义者的幻想。

Bret Stetka 是一位居住在纽约市的作家,也是 Medscape Neurology(WebMD 的子公司)的编辑主管。他的作品曾发表在《连线》、《NPR》和《大西洋月刊》上。他于 2005 年毕业于弗吉尼亚大学医学院。Stetka 于 2022 年去世。

更多作者:Bret Stetka
© . All rights reserved.