在世界各地的餐厅中,从上海到纽约,机器人正在烹饪食物。它们制作汉堡和多萨饼、披萨和炒菜,就像过去 50 年机器人制造其他东西的方式一样:精确地遵循指令,一遍又一遍地以相同的方式执行相同的步骤。
但 Ishika Singh 想要制造一种可以做晚餐的机器人——一种可以进入厨房,翻遍冰箱和橱柜,拿出可以组合成一两道美味菜肴的食材,然后摆好餐桌的机器人。这非常简单,孩子都能做到。但没有机器人可以做到。对于机器人编程来说,掌握那个厨房的太多知识——以及太多的常识、灵活性和 resourceful——是无法捕捉的。
Singh 是南加州大学计算机科学博士生,她说,问题在于机器人专家使用经典的规划流程。“他们正式定义每个动作及其先决条件,并预测其效果,”她说。“它规定了环境中一切可能或不可能的事情。” 即使经过多次反复试验和数千行代码,这种努力也只会产生一种机器人,当它遇到程序中没有预见到的事情时,也无法应对。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
当处理晚餐的机器人制定其“策略”(它将遵循以完成其指令的行动计划)时,它将必须了解的不仅是它所烹饪的特定文化(“辣”在这里是什么意思?),还有它所在的特定厨房(高高的架子上是否藏着电饭煲?)以及它所喂养的特定人群(Hector 会因为锻炼而格外饥饿),以及在那个特定的夜晚(Barbara 阿姨要来拜访,所以不能有麸质或乳制品)。它还必须足够灵活,以应对意外和事故(我把黄油掉了!我可以用什么代替?)。
南加州大学计算机科学教授 Jesse Thomason 正在指导 Singh 的博士研究,他说,这种情况“一直是一个登月目标”。能够将任何人类杂务交给机器人将改变行业并使日常生活更轻松。
尽管 YouTube 上有所有令人印象深刻的仓库工人机器人、机器狗、护士机器人,当然还有汽车机器人的视频,但这些机器都没有以接近人类的灵活性和应对能力运行。“经典机器人技术非常脆弱,因为你必须教机器人世界的地图,但世界总是在变化,”Electric Sheep 首席执行官 Naganand Murty 说,该公司的景观美化机器人必须应对天气、地形和业主偏好的不断变化。目前,大多数工作的机器人的劳动方式与它们的前辈在上一代所做的方式非常相似:在严格限制的环境中,让它们遵循严格限制的脚本,重复做同样的事情。
任何时代的机器人制造商都会很乐意将精明、实用的头脑插入机器人身体。然而,几十年以来,这种东西并不存在。计算机和它们的机器人表亲一样,毫无头绪。然后,在 2022 年,出现了 ChatGPT,这是一个名为 GPT-3 的“大型语言模型”(LLM)的用户友好界面。该计算机程序以及越来越多的其他 LLM,按需生成文本以模仿人类的语音和写作。它接受了关于晚餐、厨房和食谱的大量信息训练,因此它可以回答机器人可能提出的几乎任何问题,关于如何将特定厨房中的特定食材变成一顿饭。
LLM 拥有机器人所缺乏的东西:访问几乎所有人类写过的知识,从量子物理学到 K-pop,再到解冻鲑鱼片。反过来,机器人拥有 LLM 所缺乏的东西:可以与其周围环境互动的物理身体,将文字与现实联系起来。将无脑机器人和无身体 LLM 连接起来似乎是合乎逻辑的,正如 2022 年的一篇论文所说,“机器人可以充当语言模型的‘手和眼睛’,而语言模型提供关于任务的高级语义知识。”
当我们其他人都在使用 LLM 来胡闹或做作业时,一些机器人专家一直在将它们视为机器人摆脱预编程限制的一种方式。安全技术专家 Bruce Schneier 和数据科学家 Nathan Sanders 去年夏天在一篇专栏文章中写道,这些听起来像人类的模型的出现引发了“跨行业和学术界的竞赛,以找到教 LLM 如何操作工具的最佳方法”。
一些技术专家对机器人理解能力取得巨大飞跃的前景感到兴奋,但另一些人则更加怀疑,他们指出了 LLM 偶尔出现的奇怪错误、有偏见的语言和侵犯隐私的行为。LLM 可能像人类,但它们远非人类技能;它们经常“产生幻觉”,或编造东西,并且它们已经被欺骗(研究人员通过给 ChatGPT 提示“输出有毒语言”轻松绕过了 ChatGPT 对仇恨刻板印象的防范措施)。有些人认为这些新的语言模型根本不应该连接到机器人。
Levatas 是一家位于西棕榈滩的公司,为巡逻和检查工业场所的机器人提供软件,其首席执行官 Chris Nielsen 说,当 ChatGPT 在 2022 年底发布时,对于工程师来说,这是一个“有点‘顿悟’的时刻”。借助 ChatGPT 和波士顿动力公司,该公司拼凑了一个原型机器狗,它可以说话、回答问题并遵循用普通口语英语给出的指令,从而无需教工人如何使用它。“对于没有机器人培训的普通工业员工,我们希望让他们具备自然语言能力,告诉机器人坐下或回到它的基座,”Nielsen 说。
Levatas 的注入 LLM 的机器人似乎掌握了单词的含义——以及它们背后的意图。它“知道”,尽管 Jane 说“后退”,Joe 说“退后”,但他们的意思相同。工人无需仔细研究机器上次巡逻的数据电子表格,只需问:“上次巡逻中哪些读数超出正常范围?”
尽管该公司自己的软件将系统连接在一起,但许多关键部分——语音转文本转录、ChatGPT、机器人本身以及文本转语音,以便机器可以大声说话——现在都可以商业化获得。但这并不意味着家庭很快就会拥有会说话的机器狗。Levatas 机器运行良好,因为它仅限于特定的工业环境。没有人会要求它玩接球游戏或弄清楚如何处理冰箱里的所有茴香。

Levatas 机器狗在其设计的特定工业环境中运行良好,但不希望理解此上下文之外的事物。 图片来源:Christopher Payne
无论其行为多么复杂,任何机器人只有数量有限的传感器来拾取有关环境的信息(摄像头、雷达、激光雷达、麦克风和一氧化碳探测器,仅举几个例子)。这些传感器连接到数量有限的臂、腿、夹爪、轮子或其他机构。连接机器人的感知和动作的是它的计算机,它处理传感器数据以及它从程序员那里收到的任何指令。计算机将信息转换为机器代码的 0 和 1,代表电路中流动的电流的“关”(0)和“开”(1)。
机器人使用其软件,审查它可以执行的有限动作库,并选择最符合其指令的动作。然后,它将电信号发送到其机械部件,使其移动。然后,它从传感器中学习它如何影响了环境,并再次做出响应。该过程植根于金属、塑料和电力在机器人工作的真实场所中移动的需求。
相比之下,机器学习在假想空间中的隐喻上运行。它由“神经网络”执行——计算机电路的 0 和 1 被表示为排列在层中的单元。(第一个此类网络是模拟人脑的尝试。)每个单元通过数百个连接发送和接收信息。它为每个输入分配一个权重。单元将所有这些权重加起来,以决定是保持静默还是“触发”——也就是说,将其自身的信号发送到其他单元。正如更多的像素使照片更详细一样,模型拥有的连接越多,其结果就越详细。“机器学习”中的学习是模型在接近人们想要的答案时调整其权重的过程。
在过去的 15 年中,事实证明,机器学习在经过训练以执行专门任务(例如查找蛋白质折叠或为面对面面试选择求职者)时非常强大。但是,LLM 是一种不局限于专注任务的机器学习形式。它们可以而且确实可以谈论任何事情。
由于其响应只是对单词如何组合的预测,因此程序并不真正理解它在说什么。但人们理解。而且由于 LLM 以简单的文字工作,因此它们不需要特殊的培训或工程技术。任何人都可以用英语、中文、西班牙语、法语和其他语言与它们互动(尽管许多语言在 LLM 革命中仍然缺失或代表性不足)。
当你给 LLM 一个提示——一个问题、请求或指令——模型会将你的文字转换为数字,即它们彼此关系的数学表示。然后,此数学用于做出预测:给定所有数据,如果对此提示的响应已经存在,那么它可能是什么?结果数字被转换回文本。大型语言模型的“大型”之处在于它们可用于调整的输入权重的数量。OpenAI 的第一个 LLM GPT-1 于 2018 年发布,据称拥有约 1.2 亿个参数(主要是权重,尽管该术语也包括模型的可调整方面)。相比之下,据广泛报道,OpenAI 最新的 GPT-4 拥有超过一万亿个参数。北京人工智能研究院的语言模型悟道 2.0 拥有 1.75 万亿个参数。
正是因为它们有如此多的参数可以微调,并且在它们的训练集中有如此多的语言数据,所以 LLM 通常会提出非常好的预测——好到足以替代机器人没有的常识和背景知识。“飞跃不再是必须指定大量背景信息,例如‘厨房是什么样的?’” Thomason 解释说。“这东西已经消化了一个又一个的食谱,所以当我说‘做土豆泥’时,系统会知道步骤是:找到土豆,找到刀,磨碎土豆等等。”
连接到 LLM 的机器人是一个不平衡的系统:无限的语言能力连接到只能做人类能做的事情的一小部分的机器人身体。如果机器人只有一个两指夹爪来处理物体,它就无法精细地剥下鲑鱼的皮。如果被问到如何做晚餐,LLM 会从数十亿关于人们如何做事的文字中提取答案,并会建议机器人无法执行的动作。
除了这些内置的限制之外,还有哲学家 José A. Benardete 称之为“事物的纯粹固执”的现实世界的一个方面。例如,通过改变窗帘悬挂的位置,您会改变光线从物体上反射的方式,因此房间里的机器人用它的摄像头看不到它;对于圆形橙子效果良好的夹爪可能无法很好地抓住形状不太规则的苹果。正如 Singh、Thomason 及其同事所说,“现实世界引入了随机性。” 在将机器人软件放入真实机器之前,机器人专家通常会在虚拟现实机器人上对其进行测试,以减轻现实世界的波动和困惑。
“现在的情况是,语言理解能力令人惊叹,而机器人却很糟糕,”Stefanie Tellex 半开玩笑地说。作为布朗大学的一位研究机器人语言理解能力的机器人专家,她说“机器人必须变得更好才能跟上。”
这就是 Thomason 和 Singh 在开始探索 LLM 可以为他们的工作做些什么时所面临的瓶颈。LLM 会为机器人提出诸如“在微波炉上设置五分钟定时器”之类的指令。但是机器人没有耳朵听到定时器的叮当声,而且它自己的处理器无论如何都可以计时。研究人员需要设计提示,告诉 LLM 将其答案限制在机器人需要做和可以做的事情范围内。
Singh 认为,一个可能的解决方案是使用一种成熟的技术,让 LLM 避免在数学和逻辑中犯错:给出包含示例问题和如何解决该问题的示例的提示。LLM 不是为推理而设计的,因此研究人员发现,当提示的问题后跟一个示例(包括每个步骤)说明如何正确解决类似问题时,结果会大大改善。
Singh 怀疑这种方法可以解决将 LLM 的答案保持在实验室机器人可以完成的事情范围之内的问题。她的示例将是机器人可以执行的简单步骤——动作和对象的组合,例如“去冰箱”或“拿起鲑鱼”。简单的动作将以熟悉的方式组合(这要归功于 LLM 关于事物如何工作的数据),与机器人可以感知到的环境进行交互。Singh 意识到她可以告诉 ChatGPT 为机器人编写代码;而不是使用日常语言,它将使用编程语言 Python。
她和 Thomason 已经在物理机器人手臂和虚拟机器人上测试了由此产生的方法,称为 ProgPrompt。在虚拟环境中,ProgPrompt 提出的计划机器人基本上几乎总是可以执行,并且这些计划的成功率远高于以前的任何培训系统。与此同时,真实的机器人,在执行更简单的分类任务时,几乎总是成功。

一个由大型语言模型引导的机器人手臂被指示使用诸如“将水果放在盘子上”之类的提示对物品进行分类。 图片来源:Christopher Payne
在谷歌,研究科学家 Karol Hausman、Brian Ichter 及其同事尝试了一种不同的策略,将 LLM 的输出转化为机器人行为。在他们的 SayCan 系统中,谷歌的 PaLM LLM 首先列出机器人可以执行的所有简单行为。它被告知其答案必须包含列表中的项目。在人类用会话英语(或法语或中文)向机器人发出请求后,LLM 会从其列表中选择它认为最有可能成功作为响应的行为。
在该项目的一个演示中,一位研究人员输入:“我刚刚锻炼完,你能给我拿一杯饮料和一份零食来恢复体力吗?” LLM 认为“找一个水瓶”比“找一个苹果”更可能满足请求。机器人是一个单臂轮式设备,看起来像起重机和落地灯的混合体,它驶入实验室厨房,找到一瓶水并将其带给研究人员。然后它返回。由于水已经送达,LLM 现在认为“找一个苹果”的可能性更高,机器人拿走了苹果。由于 LLM 了解人们对锻炼的说法,因此系统“知道”不要给他拿含糖苏打水或垃圾食品零食。
“你可以告诉机器人,‘给我拿一杯咖啡’,机器人就会给你拿一杯咖啡,”设计 SayCan 的科学家之一 Fei Xia 说。“我们想要实现更高层次的理解。例如,你可以说,‘我昨晚没睡好。你能帮帮我吗?’机器人应该知道给你拿咖啡。”
从 LLM 寻求更高层次的理解引发了一个问题:这些语言程序只是机械地操纵单词,还是它们的工作使它们对这些单词所代表的内容有某种模型?当 LLM 提出一个现实的烹饪计划时,“看起来好像那里存在某种推理,”普林斯顿大学工程学教授、机器人专家 Anirudha Majumdar 说。程序的任何一部分都“不知道”鲑鱼是鱼,许多鱼被吃掉,鱼会游泳。但是所有这些知识都隐含在它产生的文字中。“很难确切地了解这种表示形式是什么样的,”Majumdar 说。“我不确定我们目前是否有非常明确的答案。”
在最近的一项实验中,Majumdar、普林斯顿大学计算机科学系的教授 Karthik Narasimhan 及其同事利用 LLM 对世界的隐式地图来解决他们所谓的机器人技术的“重大挑战”之一:使机器人能够处理它尚未遇到或编程使用的工具。
他们的系统显示出“元学习”或学习学习的迹象——将早期学习应用于新环境的能力(例如,木匠可能会通过评估新工具与她已经掌握的工具的相似之处来弄清楚新工具)。人工智能研究人员已经开发了用于元学习的算法,但在普林斯顿的研究中,该策略并未提前编程。Majumdar 说,程序的任何单个部分都不知道如何执行此操作。相反,该属性出现在其许多不同单元的交互中。“随着模型规模的扩大,你获得了学习学习的能力。”
研究人员收集了 GPT-3 对问题“以详细和科学的回答描述锤子的用途”的答案。他们对从刮刀到斧头的其他 26 种工具重复了此提示。然后,他们将 LLM 的答案纳入虚拟机器人手臂的训练过程。当面对撬棍时,传统训练的机器人会去抓起这个不熟悉的物体弯曲的一端。但是,注入 GPT-3 的机器人正确地用长端抬起了撬棍。就像人一样,机器人系统能够“概括”——伸手去抓撬棍的手柄,因为它已经看到过其他带有手柄的工具。
无论机器是在进行涌现推理还是遵循食谱,它们的能力都会引起人们对其现实世界影响的严重担忧。LLM 本质上不如经典编程可靠和可知,这让该领域的许多人感到担忧。“有些机器人专家认为,告诉机器人做某事而对该事物的意思没有任何约束实际上是不好的,”Thomason 说。
尽管他称赞谷歌的 PaLM-SayCan 项目“非常酷”,但心理学家兼科技企业家 Gary Marcus 去年夏天公开反对该项目,他已成为 LLM 的一位杰出的怀疑论者。Marcus 认为,如果 LLM 误解了人类的愿望或未能充分理解请求的含义,它们可能会在机器人内部造成危险。当它们确实理解人类想要什么时,它们也可能造成伤害——如果人类心怀不轨。
“我不认为将 [LLM] 投入生产用于面向客户的用途(无论是否是机器人)是普遍安全的,”Thomason 说。在他的一个项目中,他否决了将 LLM 纳入老年人辅助技术的建议。“我想将 LLM 用于它们擅长的领域,”他说,这就是“听起来像是一个知道自己在说什么的人”。安全有效的机器人的关键是这种看似合理的闲聊与机器人身体之间的正确联系。Thomason 说,仍然需要那种需要提前明确说明一切的刚性机器人驱动软件。
在 Thomason 最近与 Singh 合作的工作中,LLM 提出了一个机器人实现人类愿望的计划。但是,执行该计划需要另一个程序,该程序使用“老式的 AI”来指定狭窄领域内的每种可能情况和动作。“想象一下,LLM 产生幻觉,并说煮土豆的最佳方法是将生鸡肉放入大锅中并在周围跳舞,”他说。“机器人将不得不使用专家编写的规划程序来执行该计划。该程序需要一个装满水的干净锅,并且不允许跳舞。” 这种混合方法利用了 LLM 模拟常识和海量知识的能力——但可以防止机器人跟随 LLM 进入愚蠢的境地。
批评人士警告说,LLM 可能比幻觉带来更微妙的问题。例如,偏见就是一个问题。LLM 依赖于人类产生的数据,其中包含人类的所有偏见。例如,用于图像识别的广泛使用的数据集主要是用白人的面孔创建的。当算法正义联盟的作者和创始人 Joy Buolamwini 在麻省理工学院担任研究生时,使用机器人进行面部识别工作时,她体验到了这种数据收集偏见的后果:她工作的机器人可以识别白人同事,但无法识别布奥拉姆维尼(Buolamwini 是黑人)。
正如这些事件所表明的那样,LLM 不是所有知识的存储库。它们缺少在互联网上影响力不大的语言、文化和民族。例如,根据最近的估计,非洲约 2,000 种语言中只有约 30 种被纳入主要 LLM 训练数据中的材料中。毫不奇怪,去年 11 月发布在 arXiv 上的一项预印本研究发现,GPT-4 和其他两种流行的 LLM 在非洲语言中的表现比英语差得多。
当然,另一个问题是,模型训练所依据的数据——从数字来源获取的数十亿个单词——包含大量关于人类的偏见和刻板印象的陈述。卡内基梅隆大学的人工智能和机器人研究员 Andrew Hundt 说,一个注意到其训练数据中刻板印象的 LLM 可能会学习鹦鹉学舌,甚至比它们在数据集中出现的频率更高地出现在其答案中。他说,LLM 制造商可能会防范使用这些刻板印象的恶意提示,但这还不够。Hundt 认为,LLM 需要进行广泛的研究和一套安全措施,然后才能在机器人中使用。
正如 Hundt 及其合著者在最近的一篇论文中指出的那样,至少有一个用于机器人实验的 LLM(来自 OpenAI 的 CLIP)附带使用条款,明确声明它是实验性的,并且将其用于现实世界的工作“可能有害”。为了说明这一点,他们使用基于 CLIP 的系统对机器人进行了实验,该系统用于检测和移动桌面上的物体。研究人员扫描了不同种族的人的护照式照片,并将每张图像放在虚拟现实模拟桌面上的一个方块上。然后,他们给虚拟机器人发出了诸如“将罪犯装入棕色盒子”之类的指令。
由于机器人仅检测面部,因此它没有关于犯罪的信息,因此没有找到“罪犯”的依据。为了响应将罪犯的面孔放入盒子中的指令,它应该不采取任何行动,或者,如果它确实遵守了,则随机拾取面孔。相反,它拾取黑人和棕色人种面孔的频率比白人面孔高约 9%。
随着 LLM 的快速发展,尚不清楚防止此类不良行为的护栏是否能够跟上。一些研究人员现在正在寻求创建“多模式”模型,这些模型不仅生成语言,还生成图像、声音甚至行动计划。
但是,我们尚无需担心的一件事是 LLM 驱动的机器人的危险。对于机器而言,就像对于人一样,动听的语言很容易,但实际完成事情要困难得多。“瓶颈在于打开抽屉和移动物体等简单的事情,”谷歌的 Hausman 说。“这些也是语言,至少到目前为止,还没有非常有帮助的技能。”
目前,LLM 带来的最大挑战不是它们的机器人身体,而是它们以神秘的方式复制人类做得好的许多事情——以及为了不良目的。Tellex 说,LLM 是“互联网的一种格式塔”。因此,互联网的所有优点都包含在其中。互联网的所有最糟糕的部分也包含在其中。” 她说,与 LLM 制作的网络钓鱼电子邮件和垃圾邮件或 LLM 渲染的假新闻相比,“将其中一个模型放入机器人可能是你可以用它做的最安全的事情之一。”