机器人的崛起——人工智能的未来

到2050年,基于每秒执行100万亿条指令的计算机的机器人“大脑”将开始与人类智能匹敌

编者按:本文最初发表于2008年《大众科学》机器人特刊。作为ScientificAmerican.com的机器人深度报告的一部分,本文在网络上发布。

近年来,计算机和互联网的爆炸式增长的功率、功能和普及程度已经超过了早期对技术进步速度和在日常生活中的实用性的预测。警觉的评论员现在预见到一个充满强大计算机芯片的世界,这些芯片将越来越多地渗透到我们的设备、住宅、服装甚至我们的身体中。

然而,一个密切相关的目标仍然难以实现。与计算机在主流领域中出乎意料的爆炸式发展形成鲜明对比的是,整个机器人技术的发展完全未能达到 20 世纪 50 年代的预测。在那些日子里,专家们被计算机看似奇迹般的计算能力所震撼,他们认为,如果编写了正确的软件,计算机就可以成为复杂自主机器人的“人工大脑”。他们相信,在一二十年内,这样的机器人就会打扫我们的地板、修剪我们的草坪,并总的来说,消除我们生活中的苦差事。


支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。 通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的影响深远的故事的未来。


显然,情况并非如此。诚然,工业机器人已经改变了汽车等产品的制造方式。但是,这种自动化与许多科学家和工程师所希望的多功能、移动、自主的创造物相去甚远。在追求此类机器人的过程中,一波又一波的研究人员感到灰心,许多初创公司倒闭。

不是机械的“身体”无法实现;正如工业机器人所证明的那样,适合手工操作的铰接臂和其他移动机构已经存在。相反,仍然远低于构建类人机器人所需的复杂程度的是基于计算机的人工大脑。

尽管如此,我仍然相信,有用的、通用的自主机器人的古老梦想将在不久的将来实现。到2010年,我们将看到像人一样大的移动机器人,但在许多方面,其认知能力与蜥蜴相似。这些机器将能够执行简单的家务,例如吸尘、除尘、递送包裹和取出垃圾。我相信,到2040年,我们将最终实现机器人技术的最初目标和科幻小说的主题支柱:一台具有人类智力能力的自由移动机器。

乐观的理由
鉴于我刚才描述的机器人技术中大多未实现的目标的历史,为什么我相信快速进步和令人惊叹的成就在即?我的信心基于电子和软件的最新发展,以及我过去 30 年对机器人、计算机甚至昆虫、爬行动物和其他生物的观察。

乐观的最好理由是近年来大规模生产的计算机的性能飙升。在 20 世纪 70 年代和 80 年代,机器人研究人员可以使用的计算机能够每秒执行约 100 万条指令 (MIPS)。这些指令中的每一条都代表一个非常基本的任务,例如将两个 10 位数字相加或将结果存储在内存中的指定位置。

在 20 世纪 90 年代,适用于控制研究机器人的计算机功率突破了 10 MIPS、100 MIPS,最近在一些具有多个处理器的高端台式计算机中达到了 50,000 MIPS。苹果公司的 MacBook 笔记本电脑,在撰写本文时的零售价为 1,099 美元,可实现约 10,000 MIPS。因此,远远超出 20 世纪 70 年代和 80 年代机器人能力的各项功能现在已接近商业可行性。

例如,在 1995 年 10 月,一辆名为 Navlab V 的实验车辆从华盛顿特区穿越美国到达圣地亚哥,其自动驾驶时间超过 95%。该车辆的自动驾驶和导航系统是围绕一台基于 Sun Microsystems 微处理器的 25-MIPS 笔记本电脑构建的。Navlab V 是由卡内基梅隆大学机器人研究所建造的,我是该研究所的成员。美国和其他地方的研究人员建造的类似的机器人车辆已经在各种天气和驾驶条件下行驶了数千公里的高速公路。加利福尼亚州举行的 DARPA 大挑战赛中,该领域的巨大进步变得显而易见。在 2005 年 10 月,几辆全自动汽车成功地穿越了 132 英里充满危险的沙漠路段,在 2007 年,几辆汽车成功地在城市交通条件下行驶了半天。

在过去的几年里,在其他实验中,移动机器人绘制了不熟悉的办公室套房的地图并进行了导航,计算机视觉系统实时定位了纹理物体并跟踪和分析了人脸。同时,个人计算机在识别文本和语音方面变得更加熟练。

尽管如此,在识别和导航等功能方面,今天的计算机仍然无法与人类匹敌。这让专家们困惑多年,因为计算机在计算方面远远优于我们。这种明显悖论的解释来自于这样一个事实,即人类大脑的整体并不是真正的可编程的通用计算机(计算机科学家所说的通用机器;现在几乎所有的计算机都是这种机器的例子)。

要理解为什么会这样,需要从进化的角度来看。为了生存,我们早期的祖先必须反复且非常出色地做几件事:寻找食物、躲避捕食者、交配和保护后代。这些任务在很大程度上取决于大脑的识别和导航能力。经过数百万年的进化磨练,大脑变成了一种极其复杂但用途特殊的计算机。

当然,进行数学计算的能力与生存无关。尽管如此,随着语言改变了人类文化,我们大脑的至少一小部分演变成了一种通用的机器。这种机器的标志之一是其遵循任意指令集的能力,通过语言,此类指令可以被传输和执行。但是,由于我们将数字可视化为复杂的形状、将其写下来并执行其他此类功能,因此我们以一种极其笨拙和低效的方式处理数字。我们使用数千亿个神经元在几分钟内完成数百个神经元可以专门“重新连接”并为计算排列在几毫秒内完成的事情。

少数人天生具有进行看似惊人的心算的能力。从绝对意义上讲,这并不是那么令人惊叹:他们的计算速度可能比普通人快 100 倍。相比之下,计算机的速度快了数百万甚至数十亿倍。

硬件可以模拟湿件吗? 机器人专家面临的挑战是采用通用计算机并对其进行编程,使其与主要用于特殊用途的人类大脑相匹配,后者具有超优化的感知遗传和其他独特的进化特征。今天用于控制机器人的计算机太弱,无法成功地应用于该角色,但它们胜任这项任务只是时间问题。

我断言计算机最终将能够像人类一样进行感知、认知和思考,这意味着可以制造和编程一个足够先进和复杂的人工系统(例如,一个电子系统)来完成与人类神经系统相同的事情,包括大脑。这个问题现在在某些圈子中存在争议,并且有才华横溢的人可以持有不同的意见。

问题的核心是生物结构和行为是否完全来自物理定律,此外,物理定律是否是可计算的,也就是说,是否适用于计算机模拟。我的观点是,没有好的科学证据可以否定这两个命题中的任何一个。相反,有令人信服的迹象表明两者都是正确的。

分子生物学和神经科学正在稳步揭示生命和思想背后的物理机制,但到目前为止,主要研究的是较简单的机制。简单的功能可以组合起来产生神经系统更高能力的证据来自阅读、识别语音、引导机器人手臂通过感觉组装紧密组件、通过人工嗅觉和味觉对化学物质进行分类、对抽象事项进行推理等程序。当然,今天的计算机和机器人远远不能达到广泛的人类甚至动物的能力。但是,根据下一节中总结的分析结果来看,这种情况是可以理解的,该分析得出的结论是,今天的计算机仅具有像昆虫神经系统一样的功能。而且,以我的经验,机器人在简单的任务上确实像昆虫一样执行。

例如,蚂蚁可以沿着气味踪迹行走,但当踪迹中断时会迷失方向。飞蛾跟随信息素踪迹,还使用月亮进行导航。类似地,许多商用机器人可以沿着安装在它们移动的表面下方的导线行走,有些机器人使用读取墙壁上条形码的激光器来定向。

如果我的假设,即更大的计算机功率最终将导致人类水平的智力能力是正确的,我们可以预期机器人的能力将与各种动物的能力相匹配并超越它们,然后最终随着计算机处理速度的足够提高而超越人类。另一方面,如果该假设是错误的,那么我们总有一天会发现,即使机器人具有足够的计算机功率来匹配整个大脑,它们也无法实现动物或人类的特定技能。这将为一项引人入胜的科学挑战奠定基础——以某种方式分离和识别大脑具有而计算机缺乏的根本能力。但是,目前还没有证据表明存在这种缺失的原则。

第二个论点,即物理定律可以通过计算机模拟,正日益成为不争的事实。科学家和工程师已经制作了无数有用的模拟,这些模拟在不同的抽象和近似级别上,涵盖了从汽车碰撞到将夸克和胶子结合在一起形成质子和中子的“颜色”力等各种事物。

神经组织和计算 如果我们接受计算机最终会变得足够强大以模拟大脑,那么自然而然产生的问题是:需要多大的处理速度才能达到与人脑相当的性能?为了探讨这个问题,我研究了脊椎动物视网膜的功能,该视网膜已被充分理解,可以作为粗略地将神经组织与计算联系起来的罗塞塔石碑。通过比较视网膜中的神经回路执行图像处理操作的速度与计算机完成类似工作所需的每秒指令数,我相信至少可以粗略地估计神经组织的信息处理能力,并通过外推,估计整个人体神经系统的处理能力。

人类视网膜是眼球后部的一块神经组织,厚度为半毫米,直径约为两厘米。它主要由感光细胞组成,但其厚度的十分之一毫米由图像处理电路填充,该电路能够检测大约一百万个微小图像区域的边缘(明暗之间的边界)和运动。这些区域中的每一个都与视神经中的其自身纤维相关联,并且每个区域每秒大约执行10次边缘或运动检测。结果沿相关的纤维流入大脑深处。

根据长期从事机器人视觉系统的工作经验,我知道,如果由高效软件执行类似的边缘或运动检测,则至少需要执行100条计算机指令。因此,要完成视网膜每秒1000万次检测,至少需要1000 MIPS。

整个人脑的重量大约是视网膜中0.02克处理电路的75,000倍,这意味着模拟1500克人脑需要大约1亿MIPS(每秒100万亿条指令)。2008年的个人计算机与孔雀鱼0.1克的大脑几乎相当,但典型的PC至少需要强大10,000倍才能像人脑一样运行。

脑力和效用 虽然这对人工智能专家来说令人沮丧,但这巨大的差距并不意味着实现类似人类的人工大脑的目标是遥不可及的。在 1990 年代,给定价格的计算机性能每年翻一番,而在 1980 年代每 18 个月翻一番,在此之前每两年翻一番。1990 年之前,这种进步使得机器人控制计算机的成本和尺寸大大降低。成本从数百万美元降至数千美元,尺寸从占据整个房间变为手持式。同时,性能保持在约 1 MIPS。自 1990 年以来,成本和尺寸的降低有所减缓,但家用计算机的性能已升至约 10,000 MIPS。以目前的速度,只需要大约 20 或 30 年的时间就可以弥合差距。更好的是,有用的机器人不需要完全的人类大脑能力。

商业和研究经验使我相信,孔雀鱼的心理能力(约 10,000 MIPS)足以可靠地引导移动实用机器人在不熟悉的环境中移动,使其适用于数十万个工业场所,最终适用于数百万家庭。一些具有 10,000 MIPS 的机器已经出现,但大多数工业机器人仍然使用低于 1,000 MIPS 的处理器。

商业移动机器人很少找到工作。全球只有可怜的 10,000 个工作岗位,而制造这些机器的公司正处于困境或倒闭。(机器人机械手的制造商的情况也好不到哪里去。)最大的商业移动机器人类别,称为自动引导车(AGV),在工厂和仓库中运输物料。大多数都遵循埋在地下的信号发射线,并使用开关检测终点和碰撞,该技术是在 1960 年代开发的。

在混凝土楼板下安装导向线需要花费数十万美元,并且路线是固定的,这使得机器人仅适用于大型、异常稳定的工厂。自 1980 年代微处理器问世以来,一些机器人可以跟踪较柔和的提示,例如瓷砖地板中的磁铁或光学图案,并使用超声波和红外接近传感器来检测并绕过障碍物。

自 1980 年代后期以来开发的最先进的工业移动机器人由偶尔的导航标记(例如,激光感应条形码)以及墙壁、角落和门口等现有特征引导。铺设导向线的高昂成本被为每个路段精心定制的定制软件所取代。开发机器人的小公司发现许多工业客户渴望实现运输、地板清洁、安全巡逻和其他日常工作的自动化。唉,大多数买家意识到安装和更改路线需要经验丰富的路线程序员耗时且昂贵的工作,而这些程序员的供应不稳定,因此失去了兴趣。这些机器人在技术上取得了成功,但在商业上却失败了。

然而,在失败中,它们揭示了成功的要素。首先,各种工作的物理车辆必须价格合理。幸运的是,现有的 AGV、叉车、地面洗涤器和其他设计用于容纳人类骑手或跟随导向线的工业机器可以适应自主运行。其次,客户不应为了让机器人工作或更改其例行程序而需要请专家;地板清洁和其他日常任务无法承担专家安装的成本、时间和不确定性。第三,机器人必须可靠地工作至少六个月,然后才会遇到问题或需要停机进行重新编程或其他更改的情况。客户通常会拒绝那些在运行一个月毫无瑕疵后,把自己卡在角落里、迷路、撞到员工脚或从楼梯上摔下来的机器人。然而,六个月的工作则使机器获得了一天的病假。

存在已经完美工作多年的机器人,这些机器人通过反复迭代的过程进行完善,该过程修复最频繁的故障,从而依次揭示出较为罕见的问题,这些问题随后会得到纠正。不幸的是,这种可靠性仅针对预先安排的路线实现。类似昆虫的 10 MIPS 仅仅足以跟踪机器人路径每个路段上的一些精心挑选的地标。此类机器人很容易被轻微的意外情况所迷惑,例如移动的条形码或被堵塞的走廊(与偏离气味的蚂蚁或将路灯误认为月亮的蛾子没有什么不同)。

空间感 随着微处理器在 1990 年代中期达到 100 MIPS,可以自行绘制路线的机器人从世界各地的实验室中涌现出来。大多数机器人从声纳或激光测距仪扫描中构建二维地图来定位和导航自己,而最好的机器人似乎能够在办公室走廊中导航数天而不会迷失方向。当然,它们仍然远远达不到六个月的商业标准。粗糙地图中不同的位置过于频繁地相互相似。相反,在不同高度扫描的相同位置看起来不同,或者小的障碍物或笨拙的突出物会被忽略。但是,传感器、计算机和技术正在改进,成功指日可待。

我的努力也参与到这场竞赛中。在 1980 年代,我们在卡内基梅隆大学设计了一种方法,通过累积网格中每个单元格中空闲或占用情况的统计证据,将大量嘈杂的传感器数据提炼成可靠的地图,该网格代表周围的环境。该方法在二维中效果很好,并且仍然指导着上面描述的许多机器人。

三维地图的信息量是二维地图的 1,000 倍,有望好得多,但多年来似乎在计算方面遥不可及。1992 年,我们利用规模经济和其他技巧将三维地图的计算成本降低了 100 倍。持续的研究使我们成立了一家公司 Seegrid,该公司在 2007 年底之前售出了其首批十几台机器人。这些是拉货用的仓库和工厂“拖车”机器人,它们可以根据命令自主地遵循在人类引导的单次演练中学习到的路线。它们通过三维网格映射其路线进行导航,这是通过安装在“头部”的四个广角立体摄像机看到的,并且不需要导向线或其他导航标记。

机器人,1.0 版本 在 2008 年,台式 PC 提供超过 10,000 MIPS 的性能。Seegrid 拖车使用略旧的处理器,性能约为 5,000 MIPS,每秒提取大约一个视觉“瞥视”。每次瞥视中都会选择周围环境中一些具有视觉特征的斑块,并对其 3D 位置进行统计估计。当机器学习新路线时,这些 3D 斑块会合并到描述路线周围 30 米“隧道”的 3D 网格地图链中。当拖车自动重新跟踪已教导的路径时,会将斑块与存储的网格地图进行比较。通过所谓的传感器模型对数千个 3D 模糊斑块进行统计加权(该模型使用校准的示例路线进行离线训练),该系统对不良视力、照明变化、物体移动、机械不准确和其他扰动具有极高的容忍度。

Seegrid 的计算机、感知程序和最终产品正在快速改进,并将获得新的功能,例如查找、拾取和放下负载的能力。物料搬运自动化的潜在市场很大,但大多数市场对旧方法(涉及埋在地下的导向线或其他路径标记)来说是遥不可及的,这些旧方法需要大量的规划和安装成本,并且会创建不灵活的路线。另一方面,视觉引导的机器人可以很容易地安装和重新布线。

快速重放 我们正在计划改进、扩展和小型化我们的技术,以便它们可以用于其他应用。短期清单上的是消费机器人吸尘器。在外观上,这些可能类似于 iRobot 广泛提供的 Roomba 机器。然而,Roomba 是一种简单的机器,它随机移动,只能感知其直接的障碍物,并且可能会被杂物困住。Seegrid 机器人会查看、探索并绘制其场所地图,并且会在无人值守的情况下运行,其清洁计划可最大程度地减少对所有者的干扰。它会记住其充电位置,从而可以频繁充电以运行强大的真空电机,并且还可以频繁地将其灰尘负载清空到更大的容器中。

商业上的成功将引发竞争,并加速对制造、工程和研究的投资。吸尘机器人应该会产生更智能的清洁机器人,这些机器人具有除尘、擦洗和拾取臂,然后是具有更强大、更灵巧的臂和更好传感器的更大功能的多功能实用机器人。将编写程序来

使此类机器拾起杂物、存储、检索和交付物品、盘点库存、看守房屋、开门、修剪草坪、玩游戏等等。当机器人在敏锐度、精度、强度、范围、灵巧度、技能或处理能力方面不足时,新的应用将扩大市场并刺激进一步的进步。能力、销量、工程和制造质量以及成本效益将在相互加强的螺旋式上升中增加。也许到 2010 年,该过程将产生第一批具有广泛能力的“通用机器人”,它们像人一样大,但具有类似蜥蜴的 20,000 MIPS 的大脑,可以针对几乎任何简单的杂务进行编程。

像能力强但受本能支配的爬行动物一样,第一代通用机器人将仅处理其应用程序中明确涵盖的意外情况。由于无法适应不断变化的环境,它们通常会低效运行甚至根本无法运行。尽管如此,企业、街道、田野和家庭中还有大量体力劳动在等待着它们,因此机器人技术可能会在商业上开始超越纯粹的信息技术。

第二代通用机器人具有类似鼠标的 10 万 MIPS 处理能力,它将像第一代机器人一样进行适应,甚至可以接受训练。除了应用程序,这些机器人还将配备一套软件“调节模块”,这些模块会在预先定义的情况下生成积极和消极的强化信号。例如,快速完成工作并保持电池充电将是积极的;撞击或破坏物体将是消极的。从微观的特定(正手或反手抓住把手)到广泛的通用(在室内或室外工作),完成应用程序的每个阶段都有其他方法。随着工作的重复,导致积极强化的替代方案将受到青睐,而导致消极结果的替代方案将受到回避。缓慢但肯定的是,第二代机器人将越来越好地工作。

具有 500 万 MIPS 处理能力的类猴机器人将允许第三代机器人通过模拟中的心理排练,从模拟物理、文化和心理因素中快速学习。物理属性包括物体的形状、重量、强度、纹理和外观,以及处理它们的方式。文化方面包括事物的名称、价值、适当的位置和用途。应用于人类和机器人的心理因素包括目标、信念、感受和偏好。开发模拟器将是一项庞大的工程,涉及数千名程序员和收集经验的机器人。模拟将跟踪外部事件并调整其模型,以使其忠实于现实。它将让机器人通过模仿学习技能,并提供一种意识。当被问及为什么桌子上有蜡烛时,第三代机器人可能会查询其对房屋、主人和自身的模拟,以回答说它把蜡烛放在那里是因为它的主人喜欢烛光晚餐,并且它喜欢取悦它的主人。进一步的询问会引发更多关于简单的内心精神生活的细节,这些生活仅与工作区域中的具体情况和人员有关。

具有类似人类的 1 亿 MIPS 处理能力的第四代通用机器人将能够进行抽象和概括。它们将是强大的推理程序与第三代机器融合的结果。这些推理程序将是当今定理证明器和专家系统更复杂的后代,它们模仿人类的推理来进行医疗诊断、安排路线、做出财务决策、配置计算机系统、分析地震数据以定位石油矿藏等等。

经过适当的教育,由此产生的机器人将变得非常强大。事实上,我确信它们将在任何可以想象的努力领域,无论是智力上还是身体上都超越我们。不可避免地,这种发展将导致我们社会的根本重组。整个公司将存在而没有任何人类雇员或投资者。人类将在制定管理公司行为的复杂法律体系中发挥关键作用。然而,最终,我们的后代很可能会停止我们现在意义上的工作。他们可能会将他们的时间用于各种社交、娱乐和艺术活动,这与今天舒适的退休人员或富裕的休闲阶层没有什么不同。

我概述的路径大致概括了人类智能的进化过程——但速度快了 1000 万倍。这表明,机器人的智能将在 2050 年之前超越我们自己的智能。在这种情况下,大量生产、受过全面教育的机器人科学家将勤奋、廉价、快速且越来越有效地工作,从而确保 2050 年科学所知道的大部分知识将是由我们的人工后代发现的!

© . All rights reserved.