让 AI 聊天机器人更安全的三种简易方法

科技行业正 rush headlong 冲向聊天机器人淘金热。我们需要及时、重点明确的监管，以跟上步伐

Finger point to mobile phone with chatbot application — Jiraroj Praditcharoenkul/阿拉米库存照片

我们已经进入了 AI 聊天机器人的勇敢新世界。这意味着一切，从重新构想学生在学校的学习方式到保护我们自己免受大规模生产的虚假信息的侵害。这也意味着要听取越来越多的监管 AI 的呼声，以帮助我们驾驭计算机写作像人一样流利的时代。甚至更好。

到目前为止，在 AI 监管的必要性上达成的共识多于对其具体内容的共识。创建了聊天机器人应用 ChatGPT 的团队负责人米拉·穆拉蒂说——历史上增长最快的消费互联网应用——政府和监管机构应该参与其中，但她没有提出具体方法。在 3 月份的一次公司活动中，埃隆·马斯克也以不太精确的措辞表示：“我们需要某种监管机构或类似的机构来监督 AI 的发展。”与此同时，ChatGPT 的广泛用途颠覆了欧洲监管单一用途 AI 应用的努力。

为了打破僵局，我建议针对聊天机器人量身定制透明度和检测要求，聊天机器人是依靠人工智能与用户对话并生成流利文本以响应键入请求的计算机程序。像 ChatGPT 这样的聊天机器人应用是 AI 中非常重要的一个角落，它有望重塑许多日常活动——从我们写作的方式到我们学习的方式。控制聊天机器人已经够麻烦了，如果再陷入为自主武器、面部识别、自动驾驶汽车、歧视性算法、广泛自动化带来的经济影响以及一些人担心的 AI 最终可能释放的渺茫但并非为零的灾难性灾难而制定的更广泛的 AI 立法，那就更麻烦了。科技行业正rush headlong 冲向聊天机器人淘金热；我们需要及时、重点明确的立法，以跟上步伐。

关于支持科学新闻业

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻业订阅。通过购买订阅，您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。

新规则应跟踪 AI 公司用于构建聊天机器人的两个阶段。首先，算法在大量文本上进行训练，以预测缺失的单词。如果您看到足够多的以“今天阴天，可能会……”开头的句子，您就会知道最可能的结论是“下雨”——算法也会学习到这一点。然后，经过训练的算法可以一次生成一个单词，就像您手机上的自动完成功能一样。接下来，人工评估员会一丝不苟地根据一些指标（例如准确性和与用户查询的相关性）对算法的输出进行评分。

我提出的第一个监管要求是，所有涉及聊天机器人技术的面向消费者的应用都应公开 AI 最初训练所用的文本。这段文本影响巨大：在 Reddit 帖子上训练，聊天机器人就会学会像 Reddit 用户一样说话。在《摩登原始人》上训练它们，它们就会像巴尼·拉布尔一样说话。关心网络上有害内容的人可能想避开在不体面网站的文本上训练的聊天机器人。公众压力甚至可以劝阻公司不要在阴谋论“新闻”网站等内容上训练聊天机器人——但这只有在公众知道公司在哪些文本上训练时才有可能。在玛丽·雪莱的1818 年小说《弗兰肯斯坦》中，她通过列出这位文学前辈对人工智能阅读的书籍，让我们得以一窥怪物的内心世界。现在是科技公司为他们自己超凡脱俗的聊天机器人造物做同样事情的时候了。

人工评估员也极大地塑造了聊天机器人的行为，这指向了第二个透明度要求。ChatGPT 的一位工程师最近描述了团队用来指导第二阶段训练的原则：“你希望它有用，你希望它是真实的，你希望它是——你知道的——无毒的。……它还应该澄清它是一个 AI 系统。它不应假设自己不具备的身份，不应声称自己拥有不具备的能力，并且当用户要求它执行不应该执行的任务时，它必须写一条拒绝消息。”我怀疑提供给评估员的指南（其中包括肯尼亚的低工资合同工，）更加详细。但目前没有法律压力要求披露有关培训过程的任何信息。

随着谷歌、Meta 和其他公司竞相将聊天机器人嵌入其产品中，以跟上微软拥抱 ChatGPT的步伐，人们有权知道塑造它们的指导原则。据报道，埃隆·马斯克正在招募一个团队来构建一个聊天机器人，以与他认为 ChatGPT 过度“觉醒”的内容竞争；如果不进一步提高培训过程的透明度，我们只能猜测这意味着什么，以及他的聊天机器人将宣扬哪些以前被禁止的（并且可能危险的）意识形态。

因此，第二个要求是，聊天机器人开发的第二阶段使用的指南应得到仔细阐述并公开可用。这将防止公司以草率的方式训练聊天机器人，并且将揭示聊天机器人可能具有哪些政治倾向、哪些话题它不会触及以及开发人员没有避免哪些有害内容。

正如消费者有权知道他们食物中的成分一样，他们也应该知道他们聊天机器人中的成分。此处提出的两项透明度要求为人们提供了他们应得的聊天机器人成分列表。这将有助于人们在信息饮食方面做出健康的选择。

检测驱动了第三个必要的条件。许多教师和组织正在考虑禁止聊天机器人生成的内容（有些已经这样做了，包括Wired 和一个流行的编码问答网站），但如果没有办法检测聊天机器人文本，禁令就没什么价值。ChatGPT 背后的公司 OpenAI 发布了一个检测 ChatGPT 输出的实验性工具，但它非常不可靠。幸运的是，有一种更好的方法——OpenAI 可能很快就会实施：水印。这是一种用于改变聊天机器人词频的技术方法，用户无法察觉，但提供了一个隐藏的印章，用于识别文本及其聊天机器人作者。

我们不应仅仅希望 OpenAI 和其他聊天机器人生产者实施水印，而应强制要求这样做。我们应该要求聊天机器人开发人员向联邦机构（如联邦贸易委员会或众议员特德·刘正在提议的 AI 监督机构）注册他们的聊天机器人和唯一的水印签名。联邦机构可以提供一个公共界面，允许任何人插入一段文本，查看哪些（如果有）聊天机器人可能生成了它。

此处提出的透明度和检测措施不会减缓 AI 的进步，也不会降低聊天机器人以积极方式服务社会的能力。它们只会让消费者更容易做出明智的决定，并让人更容易识别 AI 生成的内容。虽然 AI 监管的某些方面非常微妙和困难，但这些聊天机器人监管是明确且迫切需要的正确方向的步骤。

这是一篇观点和分析文章，作者或作者表达的观点不一定代表《大众科学》的观点。