机器人的崛起

到2050年,基于每秒执行100万亿条指令的计算机的机器人“大脑”将开始与人类智能相媲美

近年来,计算机和互联网的蓬勃发展、功能和普及程度已经超过了早期对技术进步速度及其在日常生活中的实用性的预测。警觉的评论员现在预见到一个充满强大计算机芯片的世界,这些芯片将越来越多地渗透到我们的设备、住宅、服装甚至我们的身体中。

然而,一个密切相关的目标仍然难以实现。与计算机出乎意料地爆炸式进入主流形成鲜明对比的是,整个机器人事业完全未能实现 20 世纪 50 年代的预测。在那些日子里,专家们被计算机看似奇迹般的计算能力所震惊,他们认为,如果只编写正确的软件,计算机就可以成为复杂自主机器人的“人造大脑”。他们认为,在一二十年内,这样的机器人将打扫我们的地板、修剪草坪,并且总的来说,将消除我们生活中的苦差事。

显然,事实并非如此。诚然,工业机器人已经改变了汽车等产品的制造。但这种自动化与许多科学家和工程师所期望的多功能、移动、自主的创造物相去甚远。为了追求这样的机器人,一波又一波的研究人员变得灰心丧气,许多初创公司倒闭。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


并非机械“身体”无法实现;工业机器人证明,足以进行体力劳动的铰接臂和其他移动机构已经存在。相反,计算机化的人造大脑仍然远低于构建类人机器人所需的复杂程度。

尽管如此,我深信,人们对有用的通用自主机器人的多年梦想将在不久的将来实现。到 2010 年,我们将看到与人一样大的移动机器人,但在许多方面,其认知能力与蜥蜴相似。这些机器将能够执行简单的家务,例如吸尘、除尘、递送包裹和倒垃圾。我相信,到 2040 年,我们将最终实现机器人的最初目标以及科幻小说的主题:一种具有人类智力能力的自由移动机器。

[分隔符] 乐观的理由

鉴于我刚才描述的机器人技术在很大程度上未能实现目标的历史,为什么我相信快速进步和惊人的成就即将到来?我的信心基于近期电子和软件的发展,以及过去 30 年我对机器人、计算机甚至昆虫、爬行动物和其他生物的观察。

乐观的最好理由是近年来大规模生产的计算机的性能飙升。在 20 世纪 70 年代和 80 年代,机器人研究人员 readily 可用的计算机能够每秒执行约 100 万条指令 (MIPS)。这些指令中的每一条都代表一项非常基本的任务,例如将两个 10 位数字相加或将结果存储在内存中的指定位置。

在 20 世纪 90 年代,适用于控制研究机器人的计算机功率突破了 10 MIPS、100 MIPS,最近在一些具有多处理器的**桌面计算机中达到了 50,000 MIPS。苹果公司的 MacBook 笔记本电脑,在撰写本文时零售价为 1,099 美元,达到了约 10,000 MIPS。因此,远远超出 20 世纪 70 年代和 80 年代机器人能力的功能现在正接近商业可行性。

例如,在 1995 年 10 月,一辆名为 Navlab V 的实验车辆从华盛顿特区穿越美国到达圣地亚哥,超过 95% 的时间都是自动驾驶。该车辆的自动驾驶和导航系统是围绕一台基于 Sun Microsystems 微处理器的 25-MIPS 笔记本电脑构建的。Navlab V 由卡内基梅隆大学机器人研究所建造,我是该研究所的成员。美国和德国其他地方的研究人员建造的类似机器人车辆已经在各种天气和驾驶条件下行驶了数千公里高速公路。该领域的显著进展在加利福尼亚州举行的 DARPA Grand Challenge 竞赛中显而易见。在 2005 年 10 月,几辆完全自主的汽车成功穿越了布满障碍物的 132 英里沙漠赛道,在 2007 年,几辆汽车成功地在城市交通条件下行驶了半天。

在过去几年的其他实验中,移动机器人在不熟悉的办公室套房中进行了地图绘制和导航,计算机视觉系统定位了纹理物体,并实时跟踪和分析了面部。与此同时,个人计算机在识别文本和语音方面变得更加熟练。

尽管如此,在识别和导航等功能方面,今天的计算机仍然无法与人类匹敌。多年来,这让专家们感到困惑,因为计算机在计算方面远远优于我们。这种明显悖论的解释源于以下事实:人类大脑作为一个整体,并不是真正的可编程通用计算机(计算机科学家称之为通用机器;如今几乎所有计算机都是此类机器的例子)。

要理解为什么会这样,需要从进化的角度来看。为了生存,我们早期的祖先必须反复且非常出色地做好几件事:寻找食物、逃避捕食者、交配和保护后代。这些任务在很大程度上取决于大脑的识别和导航能力。经过数亿年的进化磨练,大脑变成了一种超精密但**用途的计算机。

当然,进行数学计算的能力与生存无关。然而,随着语言改变了人类文化,我们大脑的至少一小部分进化成了一种通用机器。这种机器的标志之一是它能够遵循任意一组指令,并且借助语言,可以传输和执行这些指令。但是,因为我们将数字可视化为复杂的形状,将它们写下来并执行其他此类功能,所以我们以一种非常笨拙和低效的方式处理数字。我们使用数千亿个神经元在几分钟内完成数百个神经元可以专门“重新布线”和排列用于计算的神经元在毫秒内完成的事情。

极少数人天生就具有进行看似惊人的心算的能力。从绝对意义上讲,这并没有那么令人惊奇:他们的计算速度可能比普通人快 100 倍。相比之下,计算机的速度快数百万甚至数十亿倍。

[分隔符] 硬件可以模拟生物组织吗?

机器人专家面临的挑战是,使用通用计算机并对其进行编程,使其与主要用于**用途的人类大脑相匹配,人类大脑具有超优化的感知遗传和其他独特的进化特征。今天控制机器人的计算机太弱了,无法在该角色中成功应用,但这只是时间问题,它们迟早会胜任这项任务。

我的断言隐含着计算机最终将能够实现与人类相同类型的感知、认知和思维,即一个足够先进和复杂的人工系统——例如,一个电子系统——可以被制造和编程来做与人类神经系统相同的事情,包括大脑。这个问题目前在某些圈子里存在争议,杰出人士有理由持有不同意见。

问题的关键在于生物结构和行为是否完全源于物理定律,以及物理定律是否可计算——也就是说,是否适合计算机模拟。我的观点是,没有充分的科学证据可以否定这两个命题中的任何一个。相反,有令人信服的迹象表明两者都是真的。

分子生物学和神经科学正在稳步揭示生命和意识的物理机制,但到目前为止,主要研究的是更简单的机制。简单的功能可以组合起来产生神经系统更高能力的证据来自以下程序:阅读、识别语音、引导机器人手臂通过感觉组装紧密的组件、通过人工嗅觉和味觉对化学物质进行分类、推理抽象事物等等。当然,今天的计算机和机器人在广泛的人类甚至动物能力方面还远远不足。但是,根据下一节中总结的分析,这种情况是可以理解的,该分析得出结论,今天的计算机仅具有像昆虫神经系统一样强大的功能。而且,根据我的经验,机器人在简单的任务中确实像昆虫一样执行。

例如,蚂蚁可以沿着气味轨迹前进,但当轨迹中断时就会迷失方向。飞蛾沿着信息素轨迹前进,也利用月亮进行导航。同样,许多商业机器人可以沿着安装在它们移动的表面下方的引导线前进,有些机器人使用激光读取墙壁上的条形码来定位自己。

如果我的假设,即更强大的计算机功率最终将导致人类水平的智力能力是正确的,那么我们可以预期,随着计算机处理速度的不断提高,机器人将达到并超越各种动物的能力,然后最终达到人类的能力。另一方面,如果该假设是错误的,那么我们总有一天会发现特定的动物或人类技能,即使机器人在拥有足够的计算机功率来匹敌整个大脑之后,也无法在机器人中实现。这将为一项引人入胜的科学挑战奠定基础——以某种方式分离和识别大脑拥有而计算机缺乏的基本能力。但目前还没有证据表明存在这样的缺失原则。

第二个命题,即物理定律适合计算机模拟,越来越无可争议。科学家和工程师已经产生了无数有用的模拟,在不同的抽象和近似水平上,模拟了从汽车碰撞到将夸克和胶子结合在一起构成质子和中子的“颜色”力的一切。

[分隔符] 神经组织和计算

如果我们接受计算机最终将变得足够强大以模拟思维,那么自然而然地出现的问题是:需要什么处理速度才能产生与人脑相当的性能?为了探讨这个问题,我考虑了脊椎动物视网膜的能力,人们对视网膜的了解足以将其用作粗略地将神经组织与计算联系起来的罗塞塔石碑。通过比较视网膜中神经回路执行图像处理操作的速度与计算机完成类似工作所需的每秒指令数,我认为至少可以粗略估计神经组织的信息处理能力——并通过外推法,估计整个人类神经系统的信息处理能力。

人类视网膜是眼球后部的一片神经组织,厚度为半毫米,直径约为两厘米。它主要由感光细胞组成,但其厚度的十分之一由图像处理电路构成,该电路能够检测约一百万个微小图像区域的边缘(明暗边界)和运动。这些区域中的每一个都与其在视神经中的纤维相关联,并且每个区域每秒执行约 10 次边缘或运动检测。结果沿着相关的纤维流入大脑深处。

从长期从事机器人视觉系统的经验来看,我知道,如果通过高效软件执行类似的边缘或运动检测,则至少需要执行 100 条计算机指令。因此,要完成视网膜每秒 1000 万次检测,至少需要 1,000 MIPS。

整个人类大脑比视网膜中 0.02 克的**电路重约 75,000 倍,这意味着模拟 1,500 克的人脑大约需要 1 亿 MIPS(每秒 100 万亿条指令)。2008 年的个人计算机几乎与 0.1 克重的孔雀鱼大脑相匹配,但典型的 PC 至少需要强大 10,000 倍才能像人脑一样工作。

[分隔符] 脑力和实用性

虽然这对人工智能专家来说令人沮丧,但巨大的差距并不意味着类人人工智能大脑的目标是无法实现的。在 20 世纪 90 年代,给定价格的计算机功率每年翻一番,而在 20 世纪 80 年代,每 18 个月翻一番,在 1990 年之前,每两年翻一番。在 1990 年之前,这种进步使得机器人控制计算机的成本和尺寸大大降低。成本从数百万美元降至几千美元,尺寸从占据房间降至手持式。与此同时,功率保持稳定在约 1 MIPS。自 1990 年以来,成本和尺寸的降低有所减缓,但家用计算机的功率已升至约 10,000 MIPS。按照目前的速度,只需要大约 20 或 30 年就可以弥合差距。更好的是,有用的机器人不需要完全人类规模的脑力。

商业和研究经验使我确信,孔雀鱼的脑力——约 10,000 MIPS——足以可靠地引导移动实用机器人在不熟悉的环境中穿梭,使其适用于数十万个工业场所和最终数亿个家庭的工作。一些具有 10,000 MIPS 的机器已经问世,但大多数工业机器人仍然使用处理器,其 MIPS 低于 1,000。

商业移动机器人很少找到工作。全球只有区区 10,000 个在工作,制造它们的公司要么苦苦挣扎,要么已经倒闭。(机器人机械臂制造商的情况也好不到哪里去。)**的商业移动机器人类别,称为自动导引车 (AGV),在工厂和仓库中运输物料。大多数都遵循埋在地下的信号发射线,并通过开关检测终点和碰撞,这项技术是在 20 世纪 60 年代开发的。

在混凝土楼板下安装引导线需要花费数十万美元,而且路线是固定的,这使得机器人仅适用于大型、异常稳定的工厂。20 世纪 80 年代微处理器问世后,一些机器人可以跟踪较软的提示,例如瓷砖地板中的磁铁或光学图案,并使用超声波和红外接近传感器来检测和绕过障碍物。

自 20 世纪 80 年代末以来开发的最先进的工业移动机器人由偶尔的导航标记(例如,激光感应条形码)以及墙壁、拐角和门口等现有特征引导。铺设引导线的昂贵人工成本被定制软件所取代,该软件针对每个路线段进行了精心调整。开发机器人的小公司发现,许多工业客户渴望实现运输、地板清洁、安全巡逻和其他日常工作的自动化。唉,大多数买家在意识到安装和路线更改需要经验丰富的路线程序员耗时且昂贵的工作,而且可用性不稳定后,失去了兴趣。从技术上讲,机器人是成功的,但在商业上却失败了。

然而,在失败中,他们揭示了成功的要素。首先,各种工作的物理车辆必须价格合理。幸运的是,现有的 AGV、叉车、洗地机和其他为容纳人类驾驶员或遵循引导线而设计的工业机器可以适应自主性。其次,客户不应要求专家来启动机器人工作或更改其例程;地板清洁和其他平凡的任务无法承受专家安装的成本、时间和不确定性。第三,机器人在遇到问题或需要停机进行重新编程或其他更改的情况之前,必须可靠地工作至少六个月。客户经常拒绝那些在无故障运行一个月后卡在角落里、迷路、碾过员工的脚或从楼梯上摔下来的机器人。但是,六个月的运行时间为机器赢得了“病假”。

有些机器人已经存在多年无故障运行,它们通过迭代过程进行完善,该过程修复最常见的故障,揭示依次纠正的越来越罕见的问题。不幸的是,只有预先安排的路线才能实现这种可靠性。昆虫般的 10 MIPS 刚好足以跟踪机器人路径的每个路段上的一些精心挑选的陆标。此类机器人很容易被轻微的意外情况弄糊涂,例如条形码移位或走廊被堵塞(这与被气味轨迹弄糊涂的蚂蚁或将路灯误认为是月亮的飞蛾没什么不同)。

[分隔符] 空间感

随着微处理器达到 100 MIPS,从 20 世纪 90 年代中期开始,全球各地的实验室都出现了自行规划路线的机器人。大多数机器人从声纳或激光测距仪扫描中构建二维地图,以定位和规划自己的路线,最好的机器人似乎能够在办公室走廊中导航数天而不会迷失方向。当然,它们仍然远未达到六个月的商业标准。粗略地图中不同的位置太经常彼此相似。相反,同一位置在不同高度扫描时看起来不同,或者小障碍物或笨拙的突出物被忽略。但是传感器、计算机和技术正在改进,成功指日可待。

我的努力也在这场竞赛中。在 20 世纪 80 年代,我们在卡内基梅隆大学设计了一种方法,通过累积网格中每个单元格中空或被占用的统计证据,将大量嘈杂的传感器数据提炼成可靠的地图,网格代表周围环境。这种方法在二维中效果很好,并且仍然引导着上面描述的许多机器人。

三维地图比二维地图丰富 1,000 倍,前景广阔,但多年来似乎在计算上遥不可及。1992 年,我们利用规模经济和其他技巧将三维地图的计算成本降低了 100 倍。持续的研究使我们成立了一家名为 Seegrid 的公司,该公司在 2007 年底之前售出了第一批十几台机器人。这些是负载牵引仓库和工厂“拖船”机器人,它们可以按照命令自主地遵循在单次人工引导的步行过程中学习的路线。它们通过三维网格映射它们路线来导航,正如通过安装在“头部”上的四个广角立体摄像机所看到的那样,并且不需要引导线或其他导航标记。

[分隔符] 机器人,1.0 版

在 2008 年,桌面 PC 提供超过 10,000 MIPS。Seegrid 拖船使用稍旧的处理器,大约执行 5,000 MIPS,每秒提炼约一次视觉“瞥见”。在每次瞥见中,都会选择周围环境中数千个视觉上独特的斑块,并统计估计其 3D 位置。当机器学习新路线时,这些 3D 斑块会合并成一条 3D 网格地图链,描述路线周围 30 米的“隧道”。当拖船自动重走一条教过的路径时,这些斑块将与存储的网格地图进行比较。凭借由所谓的传感器模型统计加权的数千个 3D 模糊斑块(该模型使用校准的示例路线离线训练),该系统对视力不佳、光照变化、物体移动、机械不准确和其他扰动具有显着的容忍度。

Seegrid 的计算机、感知程序和最终产品正在迅速改进,并将获得新的功能,例如查找、拾取和放下负载的能力。物料搬运自动化的潜在市场很大,但其中大部分市场对于涉及埋地引导线或其他路径标记的旧方法来说是遥不可及的,这些方法需要广泛的规划和安装成本,并创建了不灵活的路线。另一方面,视觉引导的机器人可以轻松安装和重新布线。

[分隔符] 快速重放

我们计划改进、扩展和小型化我们的技术,以便它们可以用于其他应用。在短期清单上的是家用机器人吸尘器。从外观上看,这些可能类似于 iRobot 公司的广泛使用的 Roomba 机器。然而,Roomba 是一种简单的野兽,它随机移动,只能感知其直接障碍物,并且可能会被杂物困住。Seegrid 机器人将看到、探索和绘制其场所地图,并且将在无人值守的情况下运行,清洁计划**程度地减少了所有者的干扰。它会记住其充电位置,从而可以频繁充电以运行强大的真空电机,并且还可以频繁地将其灰尘负载清空到更大的容器中。

商业上的成功将引发竞争并加速对制造、工程和研究的投资。吸尘机器人应该催生更智能的清洁机器人,配备除尘、擦洗和拾取手臂,然后是更大的多功能实用机器人,配备更强大、更灵巧的手臂和更好的传感器。将编写程序使此类机器拾取杂物、存储、检索和交付物品、盘点库存、守卫房屋、开门、修剪草坪、玩游戏等等。当机器人在敏锐度、精度、强度、触及范围、灵巧性、技能或处理能力方面不足时,新的应用将扩大市场并刺激进一步的进步。能力、销量、工程和制造质量以及成本效益将在相互加强的螺旋中增加。也许到 2010 年,该过程将产生第一批广泛胜任的“通用机器人”,它们与人类一样大,但具有蜥蜴般的 20,000-MIPS 大脑,可以为几乎任何简单的家务编程。

与有能力但受本能支配的爬行动物一样,第一代通用机器人将仅处理其应用程序中明确涵盖的意外情况。由于无法适应不断变化的环境,它们通常会效率低下或根本无法执行。尽管如此,企业、街道、田野和家庭中仍有大量的体力劳动等待着它们,机器人技术可能会开始在商业上超越纯信息技术。

第二代通用机器人具有 100,000 MIPS 的鼠类大脑,它将像第一代机器人那样适应,甚至可以训练。除了应用程序,此类机器人还将托管一套软件“条件模块”,这些模块将在预定义的情况下生成正面和负面强化信号。例如,快速完成工作并保持电池充电将是积极的;撞击或破坏某物将是消极的。从非常具体的(以下手或上手抓住把手)到广泛通用的(在室内或室外工作),完成应用程序的每个阶段还有其他方法。随着工作的重复,导致正面强化的替代方案将受到青睐,而具有负面结果的替代方案将被回避。缓慢但肯定地,第二代机器人将越来越好地工作。

猴子般的 500 万 MIPS 将使第三代机器人能够通过模拟中的心理预演非常快速地学习,这些模拟模拟了物理、文化和心理因素。物理特性包括事物的形状、重量、强度、纹理和外观,以及处理它们的方式。文化方面包括事物的名称、价值、适当位置和用途。应用于人类和机器人的心理因素包括目标、信仰、感受和偏好。开发模拟器将是一项巨大的工程,涉及数千名程序员和经验收集机器人。模拟将跟踪外部事件并调整其模型以使其忠实于现实。它将让机器人通过模仿来学习技能,并提供一种意识。当被问及为什么桌子上有蜡烛时,第三代机器人可能会查阅其房屋、所有者和自身的模拟,以回答说它把它们放在那里是因为它的所有者喜欢烛光晚餐,而它喜欢取悦它的所有者。进一步的询问将引出更多关于简单内心精神生活的细节,这种精神生活仅关注其工作区域中的具体情况和人员。

具有 1 亿 MIPS 的人脑的第四代通用机器人将能够抽象和概括。它们将是第三代机器与强大的推理程序融合的结果。这些推理程序将是当今定理证明器和专家系统的更为复杂的后代,它们模仿人类推理来进行医疗诊断、安排路线、做出财务决策、配置计算机系统、分析地震数据以定位油矿等等。

如果受到适当的教育,由此产生的机器人将变得非常强大。事实上,我确信它们将在任何可以想象的智力或体力领域超越我们。不可避免地,这样的发展将导致我们社会的基本重组。整个公司都将存在,而没有任何人类员工或投资者。人类将在制定将管理公司行为的复杂法律体系中发挥关键作用。但最终,我们的后代很可能会停止我们现在所做的工作。他们可能会将时间用于各种社交、娱乐和艺术追求,这与今天的舒适退休人员或富裕的休闲阶层非常相似。

我概述的路径大致概括了人类智能的进化——但速度快了 1000 万倍。这表明机器人智能将在 2050 年之前超越我们自身。在这种情况下,大规模生产、受过充分教育的机器人科学家勤奋、廉价、快速且越来越有效地工作,将确保 2050 年科学所知道的大部分知识将由我们的人工后代发现!

[分隔符] 作者

汉斯·莫拉维克是卡内基梅隆大学的兼职教授。他在 10 岁时建造了他的第一个移动机器人——用锡罐、电池、灯和电机组装而成。他目前的工作重点是使机器人能够通过三维感知周围环境来确定其位置和导航。自 2004 年以来,莫拉维克一直担任 Seegrid 公司的首席科学家,该公司成立的目的是将“拖船”和其他用于仓库和工厂的机器人商业化。

© . All rights reserved.