我们需要针对人工智能的智能知识产权法

“一刀切”的监管将使人工智能的出现所承诺的医疗和研究益处受到忽视

Network of glowing purple lines encapsulating a 3D digitally rendered classic sculpture of a human head

人工智能曾经是一个充满猜测的落后领域,现在已成为一场关于革命性技术转型的希望与担忧并存的炙热、“火烧眉毛”的大火。围绕着这些智能系统——它们在某些领域已经超越了人类的能力——以及对它们的监管,存在着深刻的不确定性。为如何保护或控制这项技术做出正确的选择,是关于人工智能益处(为了科学、医学和更美好的整体生活)的希望战胜持续存在的末日恐惧的唯一途径。

过去一年中,人工智能聊天机器人(如OpenAI的ChatGPT)的公开推出引发了过度的警告。从纽约州参议院多数党领袖查克·舒默发出的警告(他说人工智能将“给工作场所、教室、我们的客厅——几乎生活的每个角落带来巨大变化”)到俄罗斯总统弗拉基米尔·普京断言的警告(他说,“谁成为这一领域的领导者,谁就将成为世界的统治者。”)。此类恐惧还包括来自行业领导者关于不受约束的人工智能的可怕后果的警告

解决这些问题的立法努力已经开始。6月14日,欧洲议会投票通过了新的《人工智能法案》,此前他们通过了欧洲委员会一份69页提案的771项修正案。该法案要求像ChatGPT这样的“生成式”人工智能系统实施多项保障措施和披露,例如关于使用“在个人意识之外部署潜意识技术”或“利用特定人群因其年龄、身体或精神残疾而造成的脆弱性”的系统,以及避免“对健康、安全、基本权利、环境以及民主和法治的可预见风险”。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


全球范围内一个紧迫的问题是,用于训练人工智能系统的数据是否需要获得作者或表演者的同意,他们也在寻求对其作品的使用给予署名和补偿。

一些政府已经为版权法创建了特殊的文本和数据挖掘例外,以便更容易地收集和使用信息来训练人工智能。这些例外允许一些系统在未经他人允许的情况下,使用在线文本、图像和其他作品进行训练。这些例外最近受到了反对,特别是来自版权所有者和更普遍反对意见的批评者,他们希望减缓或降低这些服务的质量。最近几个月,关于人工智能风险的报道激增,这些例外增加了争议,这些风险与该技术可能造成的偏见、社会操纵、收入和就业损失、虚假信息、欺诈和其他风险有关,包括关于“人类末日”的灾难性预测。

最近的美国版权听证会呼应了作者、艺术家和表演者的普遍呼声——人工智能训练数据应遵守“三个C”原则:同意(Consent)、署名(Credit)和补偿(Compensation)。每个C都有其自身的实际挑战,这与一些国家所接受的最有利的文本和数据挖掘例外相悖。

各国对与训练数据相关的知识产权采取的方法各不相同且不断发展。美国正在处理多起诉讼,以确定合理使用例外在版权方面的适用程度。欧盟(E.U.)2019年关于数字单一市场版权的指令包含了文本和数据挖掘的例外,包括针对研究和文化遗产组织的强制性例外,同时赋予版权所有者阻止将其作品用于商业服务的权利。2022年,英国提出了一项广泛的例外,该例外将适用于商业用途,尽管随后在今年早些时候被搁置。2021年,新加坡在其版权法中为计算机数据分析创建了一个例外,该例外适用于文本和数据挖掘、数据分析和机器学习。新加坡的例外要求合法访问数据,但不能被合同推翻。中国已发表声明,表示将把“侵犯知识产权的内容”排除在训练数据之外。在斯坦福大学DigiChina项目4月份的一篇文章中,乔治城大学安全与新兴技术中心的Helen Toner描述说,这“有点不透明,因为在问题中的大部分数据(通常是从各种在线来源大规模抓取的)的版权状态是模糊不清的。”许多国家没有针对文本和数据挖掘的特定例外,但尚未明确立场。印度官员表示,他们尚未准备好在这个时候监管人工智能,但与许多其他国家一样,印度热衷于支持国内产业。

随着法律法规的出台,应谨慎避免一刀切的做法,即适用于录制音乐或艺术品的规则也适用于用于医学研究和开发的科学论文和数据。

先前关于数据库的立法努力说明了谨慎的必要性。在1990年代,曾流传着一些提案,旨在自动授予从数据库中提取的信息的权利,包括统计数据和其他非版权要素。其中一个例子是世界知识产权组织(WIPO)在1996年提出的条约。在美国,一个由学者、图书馆、业余家谱学家和公共利益团体组成的多元化联盟反对该条约提案。但可能更重要的是,美国公司(如彭博社邓白氏STATS)的反对,这些公司开始认为数据库条约既不必要又繁琐,因为它会增加许可他们需要获取并提供给客户的数据的负担,并且在某些情况下,会造成不必要的垄断。WIPO数据库条约在1996年的外交会议上失败了,随后在美国通过法律的努力也失败了,但欧盟继续实施了关于数据库法律保护的指令。在随后的几十年中,美国数据库投资激增,而欧盟则试图通过法院判决削弱其指令。2005年,其内部评估发现,这项“工具对数据库的生产没有产生已被证明的影响”。

纯粹的实用性指出了另一个需要注意的地方。大型语言模型中的数据规模可能难以理解。Stable Diffusion的第一个版本(从文本生成图像)需要在23亿张图像上进行训练。GPT-2是ChatGPT模型的早期版本,在40GB的数据上进行了训练。随后的版本GPT-3在45TB的数据上进行了训练,规模扩大了1000多倍。OpenAI面临着关于其数据使用的诉讼,尚未公开披露用于训练最新版本GPT-4的数据集的具体大小。即使对于简单的项目,清理版权作品的权利也可能很困难,而对于非常大的项目或平台,考虑到定位元数据和评估作者或表演者与出版商之间合同的实际要求,甚至了解谁拥有这些权利几乎是不可能的。在科学领域,获得使用版权作品的许可的要求可能会使科学文章出版商对哪些公司可以使用这些数据拥有相当大的影响力,即使大多数作者没有报酬。

谁拥有什么的区别很重要。让流行音乐录音的版权所有者选择退出数据库是一回事;如果重要的科学论文因许可纠纷而被排除在外,则是另一回事。当人工智能应用于医院和基因治疗时,你真的想将相关信息排除在训练数据库之外吗?

除了同意之外,另外两个C,署名和补偿,也有其自身的挑战,正如现在关于侵犯版权或专利的高昂诉讼费用所证明的那样。但是,人们也可以想象在艺术或生物医学研究中使用数据集,在这些领域,管理良好的AI程序可能有助于实施利益分享,例如为播种成功的生物医学产品而提出的开源红利

在某些情况下,用于训练人工智能的数据可以是分散式的,并具有许多保障措施。其中包括实施隐私保护、避免不必要的垄断控制以及使用目前为某些科学数据构建的“数据空间”方法

所有这些都对分配给训练数据的任何类型的知识产权提出了明显的挑战:这些权利本质上是国家性的,而开发人工智能服务的竞赛是全球性的。人工智能程序可以在任何有电力和互联网接入的地方运行。你不需要庞大的员工队伍或专门的实验室。在数据获取和使用方面对人工智能训练施加昂贵或不切实际义务的国家/地区运营的公司,将与在更自由的环境中运营的实体竞争。

如果还有其他人像弗拉基米尔·普京那样思考人工智能的未来,那么这值得深思。

这是一篇观点和分析文章,作者或作者表达的观点不一定代表《大众科学》的观点。

© . All rights reserved.