人工智能正变得强大。但研究人员能使其合乎原则吗?

研究人员能否创造出今天合乎伦理道德,并且在未来是安全的 AI 算法?

Blue brain circuit background

早在 1936 年艾伦·图灵开始计算机科学研究之后不久,他就开始思考人类是否有一天能够制造出智能可与人类相媲美的机器。人工智能是现代关注这个问题的领域,自那时以来已经取得了长足的进步。但是,能够独立完成许多不同任务的真正智能机器尚未被发明出来。尽管科幻小说长期以来一直想象人工智能有一天会呈现出恶意形式,例如不道德的机器人或杀人终结者,但今天的 AI 研究人员通常更担心已经与我们的生活交织在一起的日常 AI 算法,以及已经与它们相关的各种问题。

即使今天的 AI 只能自动化某些特定任务,但它已经引起了重大担忧。在过去十年中,工程师、学者、举报人和记者反复记录了一些案例,在这些案例中,由软件和算法组成的 AI 系统已经造成或促成了对人类的严重伤害。刑事司法系统中使用的算法可能会不公平地建议拒绝假释。社交媒体推送可能会将有害内容导向脆弱的青少年。AI 引导的军用无人机可能会在没有任何道德推理的情况下杀人。此外,AI 算法往往更像是一个神秘莫测的黑匣子,而不是一个发条装置。研究人员通常无法理解这些基于涉及数十亿次计算的不透明方程的算法是如何实现其结果的。

AI 的问题并未被忽视,学术研究人员正试图使这些系统更安全、更合乎道德。构建以 AI 为中心产品的公司正在努力消除危害,尽管他们在努力方面往往缺乏透明度。“他们一直不是很坦诚,”加州大学伯克利分校的 AI 研究员乔纳森·斯特雷说。AI 已知的危险以及其潜在的未来风险,已成为新 AI 研究的广泛驱动因素。即使是那些专注于更抽象问题(例如 AI 算法效率)的科学家,也无法再忽视其领域对社会的影响。“AI 变得越强大,人们就越要求它必须是安全和稳健的,”香港科技大学的 AI 研究员冯雁表示。“在过去的三十年里,我从事 AI 行业,但在很大程度上,人们并不真正在意。”


支持科学新闻业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


随着 AI 的广泛使用,人们的担忧日益增长。例如,在 2010 年代中期,一些网络搜索和社交媒体公司开始在其产品中插入 AI 算法。他们发现他们可以创建算法来预测哪些用户更有可能点击哪些广告,从而增加他们的利润。计算技术的进步通过显着改进这些算法的“训练”——使它们从示例中学习以实现高性能——使这一切成为可能。但是,随着 AI 逐渐渗透到搜索引擎和其他应用程序中,观察家开始注意到问题并提出疑问。2016 年,调查记者提出某些假释评估中使用的算法存在种族偏见的说法。

该报告的结论受到了质疑,但设计公平且公正的 AI 现在被 AI 研究人员认为是核心问题。每当部署 AI 来预测来自不同人群的人时,就会出现担忧。随着 AI 被嵌入到越来越多的决策过程中,例如筛选求职简历或评估公寓租户申请,公平性现在已成为更加关注的焦点。

在过去几年中,在社交媒体应用程序中使用 AI 已成为另一个担忧。许多这些应用程序使用称为推荐引擎的 AI 算法,其工作方式与广告投放算法类似,以决定向用户显示哪些内容。目前有数百个家庭起诉社交媒体公司,指控算法驱动的应用程序正在将有害内容定向到儿童并导致心理健康问题。西雅图公立学校最近提起诉讼,指控社交媒体产品具有成瘾性和剥削性。但是,理清算法的真实影响并非易事。社交媒体平台发布的关于用户活动的数据很少,而独立研究人员需要这些数据来进行评估。“关于所有技术的复杂之处之一是,总是存在成本和收益,”斯特雷说,他的研究重点是推荐系统。“我们现在处于一种难以知道实际不良影响是什么的情况。”

AI 问题的性质也在发生变化。过去两年见证了多种“生成式 AI”产品的发布,这些产品可以生成文本和质量非凡的图像。越来越多的 AI 研究人员现在认为,强大的未来 AI 系统可以基于这些成就,并在未来有一天构成全球性的、灾难性的危险,这可能会使当前的问题相形见绌。

未来的威胁可能采取什么形式?在 10 月份发布在预印本存储库 arXiv.org 上的一篇论文中,DeepMind(谷歌母公司 Alphabet 的子公司)的研究人员描述了一种灾难性情景。他们想象工程师开发一种基于现有科学原理的代码生成 AI,并负责让程序员采用其提交的代码到他们的编码项目中。这个想法是,随着 AI 提交越来越多的代码,并且其中一些被拒绝,人类的反馈将帮助它学习更好地编码。但研究人员认为,这种 AI 以其唯一的指令——使其代码被采用——可能会发展出一种悲剧性的不健全策略,例如实现世界统治并迫使其代码被采用——以颠覆人类文明为代价。

一些科学家认为,应该优先考虑对现有问题的研究,这些问题已经具体且数量众多,而不是涉及假设的未来灾难的工作。“我认为我们今天遇到了更糟糕的问题,”杜克大学计算机科学家和 AI 研究员辛西娅·鲁丁说。加强这一论点的是,AI 尚未直接造成任何大规模灾难——尽管有一些有争议的案例表明,该技术不需要达到未来主义的能力水平才能变得危险。例如,非营利性人权组织国际特赦组织在去年 9 月发布的一份报告中声称,Facebook 母公司 Meta 开发的算法“极大地促成了对缅甸罗兴亚人(一个少数民族穆斯林群体)人权的不利影响”,通过放大煽动暴力的内容。Meta 回应大众科学的评论请求,指出 Meta 亚太地区公共政策总监拉斐尔·弗兰克尔之前向时代杂志发表的声明,他承认缅甸军方对罗兴亚人犯下了罪行,并表示 Meta 目前正在参与联合国和其他组织领导的政府间调查工作。

其他研究人员表示,防止强大的未来 AI 系统造成全球性灾难已经是一个主要关注的问题。“对我来说,这是我们需要解决的首要问题,”OpenAI 公司的 AI 研究员 Jan Leike 说。尽管这些危害到目前为止完全是推测性的,但它们无疑正在推动越来越多的研究人员研究各种减少危害的策略。

在一种称为价值对齐的方法中,由加州大学伯克利分校的 AI 科学家斯图尔特·罗素开创,研究人员寻求训练 AI 系统学习人类价值观并按照这些价值观行事的方法。这种方法的一个优点是,它可以现在就开发出来,并在未来的系统呈现灾难性危害之前应用于这些系统。批评者认为,价值对齐过于狭隘地关注人类价值观,而使 AI 安全还有许多其他要求。例如,正如人类一样,经过验证的、事实性的知识基础对于 AI 系统做出好的决策至关重要。“问题不是 AI 价值观错误,”艾伦人工智能研究所的研究员奥伦·埃齐奥尼说。“事实是,我们实际的选择是我们价值观知识的函数。”考虑到这些批评,其他研究人员正在努力开发更通用的 AI 对齐理论,该理论致力于确保未来系统的安全,而不会像狭隘地关注人类价值观那样。

一些科学家正在采用他们认为更实用且与当前相关的 AI 对齐方法。考虑一下文本生成技术的最新进展:领先的例子,例如 DeepMind 的 Chinchilla、Google Research 的 PaLM、Meta AI 的 OPT 和 OpenAI 的 ChatGPT,都可以生成种族歧视、非法或欺骗性的内容——这些公司都承认这是一个挑战。包括 OpenAI 和 DeepMind 在内的一些公司认为这些问题是价值对齐不足的问题。他们现在正在努力改进文本生成 AI 的价值对齐,并希望这将为对齐未来的系统提供见解。

研究人员承认,通用的 AI 对齐理论仍然缺失。“我们真的没有一个答案来解决如何对齐比人类聪明得多的系统,”莱克说。但是,无论 AI 最糟糕的问题是过去、现在还是未来,至少解决它们的最大障碍不再是缺乏尝试。

© . All rights reserved.